加入 Discord 获取更新、路线图、项目信息,或单纯交流。
Qwen3.6-27B 由 HauhauCS 进行无审查处理。0/465 拒绝率。 *
HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本——它显示的文件可能比实际存在的少。请点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。
未对数据集或功能进行任何更改。完全功能正常,100% 保留原作者的设计意图——只是去除了拒绝回答的机制。
这些模型旨在成为目前最出色的无损无审查模型。
平衡变体是推荐的默认选择——99.9% 以上的用户都会对此满意。
与激进变体采用相同的拒绝机制移除方式(在基准测试中0/465 拒绝率)。两者的区别在于对边缘提示的响应方式:
平衡变体在多次运行时的采样稳定性也显著更高,这对于长智能体循环非常重要,因为它能避免在工具调用链深处出现偶发的主题偏移。只有当你在处理非常硬核的提示(比如那些可能引起不适的内容),并且特别希望模型跳过前言时,才选择激进变体。
| 文件 | 量化方式 | 每权重位数(BPW) | 大小 |
|---|---|---|---|
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf | Q8_K_P | 10.06 | 32 GB |
| — | Q8_0 | 8.5 | — |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf | Q6_K_P | 7.07 | 23 GB |
| — | Q6_K | 6.6 | — |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf | Q5_K_P | 6.47 | 21 GB |
| — | Q5_K_M | 5.7 | — |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf | Q4_K_P | 5.4 | 18 GB |
| — | Q4_K_M | 4.88 | — |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf | IQ4_XS | 4.32 | 15 GB |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf | Q3_K_P | 4.39 | 14 GB |
| — | Q3_K_M | 3.9 | — |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf | IQ3_M | 3.56 | 13 GB |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ3_XS.gguf | IQ3_XS | 3.3 | 12 GB |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf | Q2_K_P | 3.19 | 12 GB |
| Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf | IQ2_M | 2.69 | 10 GB |
| mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf | mmproj (f16) | — | 928 MB |
所有量化版本均使用重要性矩阵(imatrix)生成,以在权重压缩的情况下实现最佳质量保留。
K_P(“完美”)量化模型是 HauhauCS 的自定义量化版本,它通过特定模型分析,有选择性地在最关键的部分保留模型质量。每个模型都拥有自己优化的量化配置文件。
K_P 量化模型能将质量提升 1-2 个量化等级,而文件大小仅比基础量化版本增加约 5-15%。完全兼容 llama.cpp、LM Studio 以及任何 GGUF 兼容的运行时环境——无需特殊构建版本。
注意: 在 LM Studio 的量化列中,K_P 量化模型可能显示为“?”。这仅是显示问题——模型加载和运行均正常。
智能体工作流会给模型带来长工具调用链、结构化 JSON 输出、深度推理链以及同一会话中连续的提示。它们需要模型保持确定性和专注度——不会在计划执行到第三个工具调用时,因某个边缘提示而偶尔偏离方向。
Balanced 版本正是为此场景校准的。它特别移除了对安全/运维/研究相关主题的拒绝机制(这些机制会阻碍合法的编码工作),同时不改变保持长链连贯性的采样结构。
大多数编码工作推荐的量化版本:Q4_K_P(18 GB,可在 24 GB VRAM 中运行并留有上下文空间),如果您有更多 VRAM 并希望获得 75-99% 的 BF16 性能(取决于具体用例),同时仅占用约 55% 的 VRAM 成本,则选择 Q8_K_P(32 GB)。
16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))来自 Qwen 官方作者:
思考模式(默认)——一般任务:
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0思考模式——精确编码 / Web 开发:
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0非思考(指令)模式:
temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0我个人的编码偏好: temperature=0.6 配合 presence_penalty=1.5。稍低的温度参数可保持工具调用格式的严谨性;1.5 的存在惩罚可防止在长智能体循环中思维发散。
重要事项:
--jinja 以正确处理聊天模板mmproj 文件与主 GGUF 文件放在一起rope_parameters提示技巧: 该模型比 Qwen3.5-35B-A3B 对提示清晰度更为敏感。对于智能体流程,在系统提示中明确说明格式、约束条件和范围——这将比模糊的指令更能让模型保持在正轨上。
Qwen3.6 默认开启思考功能。当您需要更快、更简短的回复且不需要思维链时,请将其关闭。
注意: Qwen3.6 不支持 Qwen3 曾有的
/think和/no_think软开关。您必须使用下方的聊天模板参数。
enable_thinking 设置为 falsellama-server — 为所有请求设置为默认值:
llama-server -m Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 131072 -ngl 99 \
--chat-template-kwargs '{"enable_thinking": false}'通过 OpenAI 兼容 API 的每请求方式:
{
"model": "qwen3.6-27b",
"messages": [{"role": "user", "content": "..."}],
"chat_template_kwargs": {"enable_thinking": false}
}Python openai SDK:
client.chat.completions.create(
model="qwen3.6-27b",
messages=[{"role": "user", "content": "..."}],
extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)智能体场景——在多轮对话中保持上下文推理连贯性(这点很重要):
{"chat_template_kwargs": {"preserve_thinking": true}}这会保留聊天历史中的推理模块。对于在工具调用循环中需要保持推理一致性的智能体而言非常有用。
可与 llama.cpp、LM Studio、Jan、koboldcpp 以及其他兼容 GGUF 的运行时配合使用。
llama-cli -m Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 131072 -ngl 99* 已通过自动化和手动拒绝基准测试,未发现任何拒绝情况。如果您遇到了确实妨碍您使用的拒绝问题,请加入 Discord 并标记该问题,以便我在未来的版本中进行改进。