new

架构： Qwen 3.5 | 参数： 90 亿 | 教师模型： Claude Opus 4.6 | 类型： 蒸馏型大语言模型 [](https://ko-fi.com/abcuo) CROW 已登上 HuggingFace 热门模型首页！非常感谢大家！位列全球第十！

🪶 CROW-9B

旗舰级智能，轻量级部署。 精心从 Claude Opus 4.6 蒸馏至高效的 Qwen 3.5 架构。

架构： Qwen 3.5 | 参数： 90 亿 | 教师模型： Claude Opus 4.6 | 类型： 蒸馏型大语言模型

🌟 模型亮点

卓越蒸馏成果： 继承 Claude Opus 4.6 的深度推理能力、精细格式处理和指令遵循能力。
高度灵活： 仅 90 亿参数，可在消费级 GPU 和边缘设备上高效运行，同时不牺牲上下文深度。
Qwen 3.5 基础： 继承强大的多语言支持、超大上下文窗口和结构稳定性。

--- 生成此模型成本高昂。您可以通过打赏支持本模型及未来模型的开发。https://ko-fi.com/abcuo

可用模型文件：

Qwen3.5-9B-heretic-v2.F16.gguf
Qwen3.5-9B-heretic-v2.Q8_0.gguf
Qwen3.5-9B-heretic-v2.Q5_K_M.gguf
Qwen3.5-9B-heretic-v2.Q4_K_M.gguf
Qwen3.5-9B-heretic-v2.BF16-mmproj.gguf

用户指南

安装与依赖项

LM Studio

从 https://lmstudio.ai/ 安装 LM Studio。
从本仓库的“文件”选项卡下载任意一个 GGUF 文件。
根据您的硬件选择一种量化版本：
- Q4_K_M：内存占用最低
- Q5_K_M：大多数用户的最佳默认选择
- Q8_0：质量更高，内存占用也更高
- F16：质量最佳，内存占用最高
在 LM Studio 中加载 GGUF 文件。
如果在兼容的 GGUF 运行时环境中需要图像支持，请同时下载配对的 mmproj 文件。

依赖项：

最新版 LM Studio
足够的磁盘空间用于模型和缓存
足够的 RAM / VRAM 以支持所选的量化版本
如果需要 GPU 卸载，需安装最新的 GPU 驱动程序

Ollama

从 https://docs.ollama.com/quickstart 安装 Ollama。
从本仓库下载 Crow 9B GGUF 文件。
将 GGUF 文件放置在其单独的文件夹中。
创建一个 Modelfile。
使用 ollama create 命令构建模型。

依赖项：

最新版 Ollama
足够的磁盘空间用于 GGUF 文件和 Ollama 模型存储
足够的 RAM / VRAM 以支持所选的量化版本
如果需要 GPU 加速，需安装最新的 GPU 驱动程序

LM Studio 推荐设置

建议的初始设置：

使用场景	温度 (Temperature)	核采样 (Top P)	候选词数 (Top K)	重复惩罚 (Repeat penalty)	上下文长度 (Context)	最大令牌数 (Max tokens)
通用 / 推理	0.6	0.95	20	1.05	16384	4096
创意写作 / 角色扮演	0.8	0.95	40	1.02	16384-32768	4096-8192

注意事项：

除非有特殊原因选择其他量化版本，否则建议从 Q5_K_M 开始使用。
如果出现冗长表述或推理不稳定的情况，请降低温度值。
默认情况下不要将上下文长度设置为最大值。更大的上下文会消耗更多内存，并且在性能较弱的硬件上可能导致长时间对话的稳定性下降。

Ollama 推荐设置

示例 Modelfile：

FROM ./Qwen3.5-9B-heretic-v2.Q5_K_M.gguf

PARAMETER num_ctx 16384
PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER repeat_last_n 256

SYSTEM """
You are Crow, a precise and capable assistant for reasoning, writing, coding, and long-form dialogue.
Answer directly, stay coherent, avoid repetitive thinking loops, and finish with a complete answer.
If context is missing, identify the gap briefly and continue with the best reasonable assumption.
"""

构建与运行：

ollama create crow-9b -f Modelfile
ollama run crow-9b

为获得更具创意的输出，请将 temperature 调高至 0.8，将 top_k 调高至 40，并将 repeat_penalty 略微降低至 1.02。

若遇到思维循环

如果模型开始在 </think> 标签内循环、重复分析或停滞：

停止生成。
使用较低的温度重试，理想值为 0.4 至 0.6。
略微提高重复惩罚，例如从 1.05 提高到 1.08。
添加如下指令：

Answer directly. Keep reasoning brief. Do not repeat analysis. Give the final answer.

如果当前对话变得不稳定，请开始新的对话。
如果问题主要出现在低量化版本上，请升级到 Q8_0 或 F16。

如果提示不完整或输出被截断

如果提示不完整或格式错误：

发送前清理提示。
删除损坏的标签、截断的指令或未完成的项目符号。
如果只有部分上下文可用，请在前面添加：

If context is missing, state your assumptions briefly and continue with the most likely intended task.

若输出内容被截断：

增加最大令牌数。
提问：

Continue from the last complete sentence. Do not restart or summarize. Continue exactly where you stopped.

如果模型仍然重启而非继续运行，请开启新对话，并重新发送提示，同时更明确地说明期望的输出格式。

提示词技巧

明确说明具体交付成果：列表、表格、代码、重写、草稿、评论或决策。
若涉及编码，需指定语言、运行环境以及预期的输入/输出。
对于创意写作，需预先说明语气、体裁、限制条件和视角。
对于高控制性任务，说明是需要简洁输出、完整推理过程，还是仅需最终答案。

本模型使用 Unsloth 训练，速度提升 2 倍

new

🪶 CROW-9B

旗舰级智能，轻量级部署。 精心从 Claude Opus 4.6 蒸馏至高效的 Qwen 3.5 架构。

架构： Qwen 3.5 | 参数： 90 亿 | 教师模型： Claude Opus 4.6 | 类型： 蒸馏型大语言模型

🌟 模型亮点

卓越蒸馏成果： 继承 Claude Opus 4.6 的深度推理能力、精细格式处理和指令遵循能力。
高度灵活： 仅 90 亿参数，可在消费级 GPU 和边缘设备上高效运行，同时不牺牲上下文深度。
Qwen 3.5 基础： 继承强大的多语言支持、超大上下文窗口和结构稳定性。

--- 生成此模型成本高昂。您可以通过打赏支持本模型及未来模型的开发。https://ko-fi.com/abcuo

可用模型文件：

Qwen3.5-9B-heretic-v2.F16.gguf
Qwen3.5-9B-heretic-v2.Q8_0.gguf
Qwen3.5-9B-heretic-v2.Q5_K_M.gguf
Qwen3.5-9B-heretic-v2.Q4_K_M.gguf
Qwen3.5-9B-heretic-v2.BF16-mmproj.gguf

用户指南

安装与依赖项

LM Studio

从 https://lmstudio.ai/ 安装 LM Studio。
从本仓库的“文件”选项卡下载任意一个 GGUF 文件。
根据您的硬件选择一种量化版本：
- Q4_K_M：内存占用最低
- Q5_K_M：大多数用户的最佳默认选择
- Q8_0：质量更高，内存占用也更高
- F16：质量最佳，内存占用最高
在 LM Studio 中加载 GGUF 文件。
如果在兼容的 GGUF 运行时环境中需要图像支持，请同时下载配对的 mmproj 文件。

依赖项：

最新版 LM Studio
足够的磁盘空间用于模型和缓存
足够的 RAM / VRAM 以支持所选的量化版本
如果需要 GPU 卸载，需安装最新的 GPU 驱动程序

Ollama

从 https://docs.ollama.com/quickstart 安装 Ollama。
从本仓库下载 Crow 9B GGUF 文件。
将 GGUF 文件放置在其单独的文件夹中。
创建一个 Modelfile。
使用 ollama create 命令构建模型。

依赖项：

最新版 Ollama
足够的磁盘空间用于 GGUF 文件和 Ollama 模型存储
足够的 RAM / VRAM 以支持所选的量化版本
如果需要 GPU 加速，需安装最新的 GPU 驱动程序

LM Studio 推荐设置

建议的初始设置：

使用场景	温度 (Temperature)	核采样 (Top P)	候选词数 (Top K)	重复惩罚 (Repeat penalty)	上下文长度 (Context)	最大令牌数 (Max tokens)
通用 / 推理	0.6	0.95	20	1.05	16384	4096
创意写作 / 角色扮演	0.8	0.95	40	1.02	16384-32768	4096-8192

注意事项：

除非有特殊原因选择其他量化版本，否则建议从 Q5_K_M 开始使用。
如果出现冗长表述或推理不稳定的情况，请降低温度值。
默认情况下不要将上下文长度设置为最大值。更大的上下文会消耗更多内存，并且在性能较弱的硬件上可能导致长时间对话的稳定性下降。

Ollama 推荐设置

示例 Modelfile：

FROM ./Qwen3.5-9B-heretic-v2.Q5_K_M.gguf

PARAMETER num_ctx 16384
PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER repeat_last_n 256

SYSTEM """
You are Crow, a precise and capable assistant for reasoning, writing, coding, and long-form dialogue.
Answer directly, stay coherent, avoid repetitive thinking loops, and finish with a complete answer.
If context is missing, identify the gap briefly and continue with the best reasonable assumption.
"""

构建与运行：

ollama create crow-9b -f Modelfile
ollama run crow-9b

为获得更具创意的输出，请将 temperature 调高至 0.8，将 top_k 调高至 40，并将 repeat_penalty 略微降低至 1.02。

若遇到思维循环

如果模型开始在 </think> 标签内循环、重复分析或停滞：

停止生成。
使用较低的温度重试，理想值为 0.4 至 0.6。
略微提高重复惩罚，例如从 1.05 提高到 1.08。
添加如下指令：

Answer directly. Keep reasoning brief. Do not repeat analysis. Give the final answer.

如果当前对话变得不稳定，请开始新的对话。
如果问题主要出现在低量化版本上，请升级到 Q8_0 或 F16。

如果提示不完整或输出被截断

如果提示不完整或格式错误：

发送前清理提示。
删除损坏的标签、截断的指令或未完成的项目符号。
如果只有部分上下文可用，请在前面添加：

If context is missing, state your assumptions briefly and continue with the most likely intended task.

若输出内容被截断：

增加最大令牌数。
提问：

Continue from the last complete sentence. Do not restart or summarize. Continue exactly where you stopped.

如果模型仍然重启而非继续运行，请开启新对话，并重新发送提示，同时更明确地说明期望的输出格式。

提示词技巧

明确说明具体交付成果：列表、表格、代码、重写、草稿、评论或决策。
若涉及编码，需指定语言、运行环境以及预期的输入/输出。
对于创意写作，需预先说明语气、体裁、限制条件和视角。
对于高控制性任务，说明是需要简洁输出、完整推理过程，还是仅需最终答案。

本模型使用 Unsloth 训练，速度提升 2 倍

🪶 CROW-9B

🌟 模型亮点

可用模型文件：

用户指南

推荐系统提示词

安装与依赖项

LM Studio

Ollama

LM Studio 推荐设置

Ollama 推荐设置

若遇到思维循环

如果提示不完整或输出被截断

提示词技巧

🪶 CROW-9B

🌟 模型亮点

可用模型文件：

用户指南

推荐系统提示词

安装与依赖项

LM Studio

Ollama

LM Studio 推荐设置

Ollama 推荐设置

若遇到思维循环

如果提示不完整或输出被截断

提示词技巧