HuggingFace镜像/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive
模型介绍文件和版本分析
下载使用量0

Qwen3.6-27B-Uncensored-HauhauCS-Aggressive

加入 Discord 获取更新、路线图、项目信息,或只是闲聊。

Qwen3.6-27B 由 HauhauCS 进行无审查处理。0/465 拒绝率。 *

不确定该选择哪个版本? 99.9% 以上的用户应使用 Balanced(平衡版)——同样 0/465 的拒绝率,采样更稳定,非常适合智能体编码/工具使用/推理/创意写作。仅当你特别希望模型在处理硬核提示时跳过其开场白时,才选择 Aggressive(激进版)。

HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本——它可能显示的文件数量比实际存在的少。点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。

关于

未对数据集或功能进行任何更改。功能完整,100% 保留原作者的设计意图——只是没有拒绝回答的情况。

这些旨在成为目前最佳的无损无审查模型。

Aggressive 与 Balanced 对比

两个版本在基准测试中均达到 0/465 的拒绝率。能力相同,无审查效果相同。区别在于它们如何处理尖锐提示:

Balanced(推荐默认)Aggressive(本版本)
拒绝率0/4650/465
处理硬核提示时会大声推理,偶尔有简短免责声明,然后给出完整答案直接提供原始答案,无开场白
最适合智能体编码、工具使用、推理、创意写作/角色扮演特别希望模型跳过“自我说服”步骤的用户

如果你没有充分理由选择 Aggressive,建议使用 Balanced——它是更好的默认选择。

下载

文件量化方式每权重比特数(BPW)大小
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q8_K_P.ggufQ8_K_P10.0632 GB
—Q8_08.5—
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q6_K_P.ggufQ6_K_P7.0723 GB
—Q6_K6.6—
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q5_K_P.ggufQ5_K_P6.4721 GB
—Q5_K_M5.7—
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.ggufQ4_K_P5.418 GB
—Q4_K_M4.88—
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-IQ4_XS.ggufIQ4_XS4.3215 GB
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q3_K_P.ggufQ3_K_P4.3914 GB
—Q3_K_M3.9—
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-IQ3_M.ggufIQ3_M3.5613 GB
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-IQ3_XS.ggufIQ3_XS3.312 GB
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q2_K_P.ggufQ2_K_P3.1912 GB
Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-IQ2_M.ggufIQ2_M2.6910 GB
mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.ggufmmproj (f16)—928 MB

所有量化版本均使用重要性矩阵(imatrix)生成,以在权重删减的情况下实现最佳质量保留。

什么是 K_P 量化版本?

K_P(“完美”)量化版本是 HauhauCS 的自定义量化方式,它通过特定模型分析,有选择性地在最重要的部分保留模型质量。每个模型都有其专属的优化量化配置文件。

K_P 量化版本能将质量有效提升 1-2 个量化等级,而文件大小仅比基础量化版本大 ~5-15%。完全兼容 llama.cpp、LM Studio 以及任何 GGUF 兼容的运行环境——无需特殊构建版本。

注意: K_P 量化版本在 LM Studio 的量化列中可能显示为“?”。这只是显示问题——模型加载和运行均正常。

规格说明

  • 270 亿密集参数
  • 64 层,结构:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
  • 48 个线性注意力层 + 16 个全门控注意力层
  • Gated DeltaNet:48 个 V 头 / 16 个 QK 头,头维度 128
  • Gated Attention:24 个 Q 头 / 4 个 KV 头,头维度 256,rope 维度 64
  • 隐藏层维度 5120,前馈网络维度 17408,词汇量 248320
  • 原生上下文长度 262K,可通过 YaRN 扩展至 ~1M
  • 原生多模态(文本、图像、视频)——附带 mmproj 文件
  • 基于 Qwen/Qwen3.6-27B

推荐设置

来自 Qwen 官方作者:

思考模式(默认)——通用任务:

  • temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

思考模式——精确编码/网页开发:

  • temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

非思考(指令)模式:

  • temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

我的个人偏好: 即使在思考模式下,我也会使用 presence_penalty=1.5。两种设置都能工作,但使用官方默认的 0.0 时,模型可能会进行过多不必要的思考。将其提高到 1.5 可以在不影响输出质量的前提下收敛思路。选择权在你——两种都试试。

重要提示:

  • 至少保留 128K 上下文以维持思考能力
  • 推荐输出长度:大多数查询为 32,768 个 token,竞赛级数学/代码任务最多可达 81,920 个 token
  • 在 llama.cpp 中使用 --jinja 以正确处理聊天模板
  • 视觉支持需要 mmproj 文件与主 GGUF 文件放在一起
  • YaRN rope 缩放在 llama.cpp 中是静态的,可能会影响短上下文性能——仅在确实需要 >262K 上下文时才修改 rope_parameters

提示技巧: 该模型比 Qwen3.5-35B-A3B 对提示清晰度更为敏感。明确说明格式、约束条件和范围——与模糊的指令相比,它会更好地按要求执行。

开启/关闭思考功能

Qwen3.6 默认开启思考功能。如果您希望获得更快、更简短的回复,且不需要思维链,可将其关闭。

注意: Qwen3.6 不支持 Qwen3 曾有的 /think 和 /no_think 软开关。您必须使用下方的聊天模板参数。

LM Studio

  1. 加载模型
  2. 右侧设置面板 → 模型设置 → 提示模板(或 聊天模板选项)
  3. 在模板参数中将 enable_thinking 设置为 false
  4. 部分 LM Studio 版本会将此功能直接显示为 “推理” / “思考” 切换开关 —— 效果相同

llama.cpp

llama-server — 为所有请求设置为默认:

llama-server -m Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf \
  --mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --jinja -c 131072 -ngl 99 \
  --chat-template-kwargs '{"enable_thinking": false}'

通过 OpenAI 兼容 API 的每请求方式:

{
  "model": "qwen3.6-27b",
  "messages": [{"role": "user", "content": "..."}],
  "chat_template_kwargs": {"enable_thinking": false}
}

Python openai 软件开发工具包:

client.chat.completions.create(
    model="qwen3.6-27b",
    messages=[{"role": "user", "content": "..."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

智能体场景——在多轮对话中保持上下文推理连贯性:

{"chat_template_kwargs": {"preserve_thinking": true}}

这会保留聊天历史中的推理模块。对于在工具调用循环中需要保持推理一致性的智能体而言非常有用。

使用方法

适用于 llama.cpp、LM Studio、Jan、koboldcpp 以及其他兼容 GGUF 的运行时环境。

llama-cli -m Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf \
  --mmproj mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --jinja -c 131072 -ngl 99

其他模型

  • 平衡变体(推荐默认使用)
  • HuggingFace 上的 HauhauCS

* 已通过自动化和手动拒绝基准测试——未发现任何拒绝情况。如果您遇到了确实妨碍您使用的拒绝问题,请加入 Discord 并标记该问题,以便我在未来的版本中进行改进。