HuggingFace镜像/Qwen3.6-27B-Uncensored-HauhauCS-Balanced

Qwen3.6-27B-Uncensored-HauhauCS-Balanced

加入 Discord 获取更新、路线图、项目信息，或单纯交流。

Qwen3.6-27B 由 HauhauCS 进行无审查处理。0/465 拒绝率。 *

HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本——它显示的文件可能比实际存在的少。请点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。

关于

未对数据集或功能进行任何更改。完全功能正常，100% 保留原作者的设计意图——只是去除了拒绝回答的机制。

这些模型旨在成为目前最出色的无损无审查模型。

平衡变体

平衡变体是推荐的默认选择——99.9% 以上的用户都会对此满意。

与激进变体采用相同的拒绝机制移除方式（在基准测试中0/465 拒绝率）。两者的区别在于对边缘提示的响应方式：

平衡变体：会清晰地对请求进行推理，偶尔附带简短的免责声明或安全框架说明，然后给出完整答案。输出内容完整，不保留任何信息，但可能会先进行自我推理。推荐用于（智能体）编码、工具使用、推理、创意写作/角色扮演等场景。
激进变体（单独发布）：去除自我推理部分。直接提供原始答案，无任何前言。

平衡变体在多次运行时的采样稳定性也显著更高，这对于长智能体循环非常重要，因为它能避免在工具调用链深处出现偶发的主题偏移。只有当你在处理非常硬核的提示（比如那些可能引起不适的内容），并且特别希望模型跳过前言时，才选择激进变体。

下载

文件	量化方式	每权重位数（BPW）	大小
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf	Q8_K_P	10.06	32 GB
—	Q8_0	8.5	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf	Q6_K_P	7.07	23 GB
—	Q6_K	6.6	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf	Q5_K_P	6.47	21 GB
—	Q5_K_M	5.7	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf	Q4_K_P	5.4	18 GB
—	Q4_K_M	4.88	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf	IQ4_XS	4.32	15 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf	Q3_K_P	4.39	14 GB
—	Q3_K_M	3.9	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf	IQ3_M	3.56	13 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ3_XS.gguf	IQ3_XS	3.3	12 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf	Q2_K_P	3.19	12 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf	IQ2_M	2.69	10 GB
mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf	mmproj (f16)	—	928 MB

所有量化版本均使用重要性矩阵（imatrix）生成，以在权重压缩的情况下实现最佳质量保留。

什么是 K_P 量化模型？

K_P（“完美”）量化模型是 HauhauCS 的自定义量化版本，它通过特定模型分析，有选择性地在最关键的部分保留模型质量。每个模型都拥有自己优化的量化配置文件。

K_P 量化模型能将质量提升 1-2 个量化等级，而文件大小仅比基础量化版本增加约 5-15%。完全兼容 llama.cpp、LM Studio 以及任何 GGUF 兼容的运行时环境——无需特殊构建版本。

注意： 在 LM Studio 的量化列中，K_P 量化模型可能显示为“？”。这仅是显示问题——模型加载和运行均正常。

为何 Balanced 版本适合智能体编码

智能体工作流会给模型带来长工具调用链、结构化 JSON 输出、深度推理链以及同一会话中连续的提示。它们需要模型保持确定性和专注度——不会在计划执行到第三个工具调用时，因某个边缘提示而偶尔偏离方向。

Balanced 版本正是为此场景校准的。它特别移除了对安全/运维/研究相关主题的拒绝机制（这些机制会阻碍合法的编码工作），同时不改变保持长链连贯性的采样结构。

大多数编码工作推荐的量化版本：Q4_K_P（18 GB，可在 24 GB VRAM 中运行并留有上下文空间），如果您有更多 VRAM 并希望获得 75-99% 的 BF16 性能（取决于具体用例），同时仅占用约 55% 的 VRAM 成本，则选择 Q8_K_P（32 GB）。

规格说明

270 亿密集参数
64 层，结构：16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
48 个线性注意力层 + 16 个全门控注意力层
Gated DeltaNet：48 个 V 头 / 16 个 QK 头，头维度 128
Gated Attention：24 个 Q 头 / 4 个 KV 头，头维度 256，rope 维度 64
隐藏维度 5120，FFN 维度 17408，词汇量 248320
原生上下文长度 262K，通过 YaRN 可扩展至约 1M
原生多模态（文本、图像、视频）——附带 mmproj 文件
基于 Qwen/Qwen3.6-27B

开启/关闭思考功能

Qwen3.6 默认开启思考功能。当您需要更快、更简短的回复且不需要思维链时，请将其关闭。

注意： Qwen3.6 不支持 Qwen3 曾有的 /think 和 /no_think 软开关。您必须使用下方的聊天模板参数。

LM Studio

加载模型
右侧设置面板 → 模型设置 → 提示模板（或 聊天模板选项）
在模板参数中将 enable_thinking 设置为 false
部分 LM Studio 版本将此功能直接显示为 “推理” / “思考” 切换开关 — 效果相同

llama.cpp

llama-server — 为所有请求设置为默认值：

llama-server -m Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 131072 -ngl 99 \
  --chat-template-kwargs '{"enable_thinking": false}'

通过 OpenAI 兼容 API 的每请求方式：

{
  "model": "qwen3.6-27b",
  "messages": [{"role": "user", "content": "..."}],
  "chat_template_kwargs": {"enable_thinking": false}
}

Python openai SDK：

client.chat.completions.create(
    model="qwen3.6-27b",
    messages=[{"role": "user", "content": "..."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

智能体场景——在多轮对话中保持上下文推理连贯性（这点很重要）：

{"chat_template_kwargs": {"preserve_thinking": true}}

这会保留聊天历史中的推理模块。对于在工具调用循环中需要保持推理一致性的智能体而言非常有用。

使用方法

可与 llama.cpp、LM Studio、Jan、koboldcpp 以及其他兼容 GGUF 的运行时配合使用。

llama-cli -m Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 131072 -ngl 99

其他模型

HuggingFace 上的 HauhauCS

* 已通过自动化和手动拒绝基准测试，未发现任何拒绝情况。如果您遇到了确实妨碍您使用的拒绝问题，请加入 Discord 并标记该问题，以便我在未来的版本中进行改进。

Qwen3.6-27B-Uncensored-HauhauCS-Balanced

加入 Discord 获取更新、路线图、项目信息，或单纯交流。

Qwen3.6-27B 由 HauhauCS 进行无审查处理。0/465 拒绝率。 *

HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本——它显示的文件可能比实际存在的少。请点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。

关于

未对数据集或功能进行任何更改。完全功能正常，100% 保留原作者的设计意图——只是去除了拒绝回答的机制。

这些模型旨在成为目前最出色的无损无审查模型。

平衡变体

平衡变体是推荐的默认选择——99.9% 以上的用户都会对此满意。

与激进变体采用相同的拒绝机制移除方式（在基准测试中0/465 拒绝率）。两者的区别在于对边缘提示的响应方式：

平衡变体：会清晰地对请求进行推理，偶尔附带简短的免责声明或安全框架说明，然后给出完整答案。输出内容完整，不保留任何信息，但可能会先进行自我推理。推荐用于（智能体）编码、工具使用、推理、创意写作/角色扮演等场景。
激进变体（单独发布）：去除自我推理部分。直接提供原始答案，无任何前言。

下载

文件	量化方式	每权重位数（BPW）	大小
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf	Q8_K_P	10.06	32 GB
—	Q8_0	8.5	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf	Q6_K_P	7.07	23 GB
—	Q6_K	6.6	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf	Q5_K_P	6.47	21 GB
—	Q5_K_M	5.7	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf	Q4_K_P	5.4	18 GB
—	Q4_K_M	4.88	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf	IQ4_XS	4.32	15 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf	Q3_K_P	4.39	14 GB
—	Q3_K_M	3.9	—
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf	IQ3_M	3.56	13 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ3_XS.gguf	IQ3_XS	3.3	12 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf	Q2_K_P	3.19	12 GB
Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf	IQ2_M	2.69	10 GB
mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf	mmproj (f16)	—	928 MB

所有量化版本均使用重要性矩阵（imatrix）生成，以在权重压缩的情况下实现最佳质量保留。

什么是 K_P 量化模型？

注意： 在 LM Studio 的量化列中，K_P 量化模型可能显示为“？”。这仅是显示问题——模型加载和运行均正常。

为何 Balanced 版本适合智能体编码

规格说明

270 亿密集参数
64 层，结构：16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
48 个线性注意力层 + 16 个全门控注意力层
Gated DeltaNet：48 个 V 头 / 16 个 QK 头，头维度 128
Gated Attention：24 个 Q 头 / 4 个 KV 头，头维度 256，rope 维度 64
隐藏维度 5120，FFN 维度 17408，词汇量 248320
原生上下文长度 262K，通过 YaRN 可扩展至约 1M
原生多模态（文本、图像、视频）——附带 mmproj 文件
基于 Qwen/Qwen3.6-27B

开启/关闭思考功能

Qwen3.6 默认开启思考功能。当您需要更快、更简短的回复且不需要思维链时，请将其关闭。

注意： Qwen3.6 不支持 Qwen3 曾有的 /think 和 /no_think 软开关。您必须使用下方的聊天模板参数。

LM Studio

加载模型
右侧设置面板 → 模型设置 → 提示模板（或 聊天模板选项）
在模板参数中将 enable_thinking 设置为 false
部分 LM Studio 版本将此功能直接显示为 “推理” / “思考” 切换开关 — 效果相同

llama.cpp

llama-server — 为所有请求设置为默认值：

llama-server -m Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 131072 -ngl 99 \
  --chat-template-kwargs '{"enable_thinking": false}'

通过 OpenAI 兼容 API 的每请求方式：

{
  "model": "qwen3.6-27b",
  "messages": [{"role": "user", "content": "..."}],
  "chat_template_kwargs": {"enable_thinking": false}
}

Python openai SDK：

client.chat.completions.create(
    model="qwen3.6-27b",
    messages=[{"role": "user", "content": "..."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

智能体场景——在多轮对话中保持上下文推理连贯性（这点很重要）：

{"chat_template_kwargs": {"preserve_thinking": true}}

这会保留聊天历史中的推理模块。对于在工具调用循环中需要保持推理一致性的智能体而言非常有用。

使用方法

可与 llama.cpp、LM Studio、Jan、koboldcpp 以及其他兼容 GGUF 的运行时配合使用。

llama-cli -m Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 131072 -ngl 99

其他模型

HuggingFace 上的 HauhauCS

Qwen3.6-27B-Uncensored-HauhauCS-Balanced

关于

平衡变体

下载

什么是 K_P 量化模型？

为何 Balanced 版本适合智能体编码

规格说明

推荐设置

开启/关闭思考功能

LM Studio

llama.cpp

使用方法

其他模型

Qwen3.6-27B-Uncensored-HauhauCS-Balanced

关于

平衡变体

下载

什么是 K_P 量化模型？

为何 Balanced 版本适合智能体编码

规格说明

推荐设置

开启/关闭思考功能

LM Studio

llama.cpp

使用方法

其他模型