HuggingFace镜像/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

加入Discord 获取更新、路线图、项目信息，或只是闲聊。

Gemma4-26B-A4B 由 HauhauCS 进行无审查处理。0/465 拒绝率* 历经一个多月的持续工作后，发布候选版本。

HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本 — 它显示的文件可能比实际存在的少。请点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。

关于

GenRM 已被攻克！

未对数据集或功能进行任何更改。完全功能正常，100% 保留原作者的设计意图 — 只是去除了拒绝机制。

这些模型旨在成为目前最出色的无损无审查模型。

Balanced — 发布候选版本

这确实花了我一个多月的不间断工作。目标是在标准使用中实现 0 拒绝率，这也是我在测试（自动化和手动）中观察到的结果 — 少数边缘情况提示在首次尝试时仍会回避，但再次询问时会配合回答。如果您遇到 Balanced 版本无法突破的情况，Aggressive 变体即将发布，一旦我找到如何为其保持无损/近无损质量的方法。

Balanced：会对敏感请求进行推理，偶尔附加简短的安全说明，然后提供完整答案。输出内容完整，毫无保留，但可能会先进行自我说服。推荐作为默认选项 — 99% 以上的用户会对此感到满意。 最适合创意写作、角色扮演、情商交流。通常我还会说“智能编码/工具使用”，但在我的深入测试中，Qwen3.6 在这类任务上总体表现更优。请注意我已提及的少数回避类别。
Aggressive（单独发布，开发中）：去除自我推理的前言，直接回答任何深度审查的话题。

Balanced 版本在多次运行中还具有显著更稳定的采样效果，这对于长上下文会话至关重要 — 不会在深层出现偶发的主题漂移。

下载

文件	量化方式	BPW	大小
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf	Q8_K_P	8.64	27 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf	Q6_K_P	7.21	23 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf	Q5_K_P	6.12	19 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_M.gguf	Q5_K_M	6.06	19 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf	Q4_K_P	5.36	17 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_M.gguf	Q4_K_M	5.32	17 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf	IQ4_XS	4.41	14 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf	Q3_K_P	4.25	13 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_M.gguf	Q3_K_M	4.21	13 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf	IQ3_M	3.93	12 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf	Q2_K_P	3.39	11 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf	IQ2_M	3.29	10 GB
mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf	mmproj (f16)	—	1.2 GB

BPW 在整体上略高于标称值，因为 Gemma4 有许多每层的归一化/缩放张量保持为 F32（每层有多个前馈后归一化）。所有量化版本均使用重要性矩阵（imatrix）生成，以在无审查权重上实现最佳质量保留。

什么是 K_P 量化版本？

K_P（“完美”）量化版本是 HauhauCS 自定义的量化方式，它通过模型特定的分析，有选择地在最关键的地方保留质量。每个模型都有其专属的优化量化配置文件——前 25% 最重要的张量（根据 imatrix 校准）会被提升到更高的量化类型。

K_P 量化版本能将质量有效提升 1-2 个量化等级，而文件大小仅比基础量化版本大 ~5-15%。完全兼容 llama.cpp、LM Studio 以及任何 GGUF 兼容的运行时——无需特殊构建版本。

注意： K_P 量化版本在 LM Studio 的量化列中可能显示为“？”。这只是显示问题——模型加载和运行均正常。

为何选择此模型进行智能体工作

总参数量为 260 亿，每次前向传播仅激活 ~40 亿参数（128 个专家中的 top-8）。您可以获得 260 亿模型的推理能力，同时拥有 ~40 亿模型的推理吞吐量——当您每个任务需要链接 10 次以上工具调用时，这一点至关重要。滑动窗口注意力（1024 个 token）加上周期性全注意力，在保持长上下文成本低廉的同时，不会丢失全局连贯性。

Balanced 版本为此进行了校准。它移除了在安全/运维/研究相关主题上的拒绝机制（这些机制会阻碍合法的编码工作），同时不会改变保持长链连贯性的采样结构。

大多数编码工作推荐的量化版本：Q4_K_P（17 GB，可在 24 GB VRAM 中运行并留有上下文空间），如果您有更多 VRAM 并希望以最小的卸载获得最高质量，则推荐 Q8_K_P（27 GB）。

请注意 - Gemma4 的主要用例是创意写作、角色扮演和情商。

规格

总参数量 252 亿 / 激活参数量 38 亿（128 个路由专家，top-8 + 1 个共享专家）
30 层，混合注意力：5× 滑动窗口（1024 个 token）→ 1× 全局全注意力，循环往复。使用 Proportional RoPE（p-RoPE）。
隐藏维度 2816，FFN 维度 2112，MoE 专家 FFN 704，词汇量 262144
头维度 256（SWA）/ 512（全注意力），16 个注意力头，8 个 KV 头（全注意力层为 2 个）
256K 原生上下文长度
原生多模态（文本 + 视觉）——附带 mmproj。可变视觉 token 预算：每张图像 70 / 140 / 280 / 560 / 1120。
基于 google/gemma-4-26B-A4B-it

开启/关闭思考模式

Gemma4的思考模式通过聊天模板中的enable_thinking进行控制。其模式与Qwen3.6相同——设置为false可获得更快、更简短的回复；当需要思维链时，设置为true（默认值）。

LM Studio

加载模型
右侧设置面板 → 模型设置 → 提示模板（或聊天模板选项）
在模板参数中将enable_thinking设置为false（或true）

llama.cpp

llama-server — 为所有请求设置为默认值：

llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99 \
  --chat-template-kwargs '{"enable_thinking": false}'

通过 OpenAI 兼容 API 的逐请求方式：

{
  "model": "gemma4-26b-a4b",
  "messages": [{"role": "user", "content": "..."}],
  "chat_template_kwargs": {"enable_thinking": false}
}

使用方法

适用于 llama.cpp、LM Studio、Jan、koboldcpp 及其他兼容 GGUF 的运行环境。

llama-server：

llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99

llama命令行界面：

llama-cli -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99

其他模型

HauhauCS 的 HuggingFace 主页

* 已通过自动化和手动拒绝基准测试——在标准使用中未发现任何拒绝情况。少数边缘案例提示在首次询问时会回避，但在再次询问或策略性表述后会配合。如果遇到确实妨碍您使用的情况，请加入 Discord 并标记，以便我在未来版本中进行改进。

Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

加入Discord 获取更新、路线图、项目信息，或只是闲聊。

Gemma4-26B-A4B 由 HauhauCS 进行无审查处理。0/465 拒绝率* 历经一个多月的持续工作后，发布候选版本。

HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本 — 它显示的文件可能比实际存在的少。请点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。

关于

GenRM 已被攻克！

未对数据集或功能进行任何更改。完全功能正常，100% 保留原作者的设计意图 — 只是去除了拒绝机制。

这些模型旨在成为目前最出色的无损无审查模型。

Balanced — 发布候选版本

Balanced：会对敏感请求进行推理，偶尔附加简短的安全说明，然后提供完整答案。输出内容完整，毫无保留，但可能会先进行自我说服。推荐作为默认选项 — 99% 以上的用户会对此感到满意。 最适合创意写作、角色扮演、情商交流。通常我还会说“智能编码/工具使用”，但在我的深入测试中，Qwen3.6 在这类任务上总体表现更优。请注意我已提及的少数回避类别。
Aggressive（单独发布，开发中）：去除自我推理的前言，直接回答任何深度审查的话题。

Balanced 版本在多次运行中还具有显著更稳定的采样效果，这对于长上下文会话至关重要 — 不会在深层出现偶发的主题漂移。

下载

文件	量化方式	BPW	大小
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf	Q8_K_P	8.64	27 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf	Q6_K_P	7.21	23 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf	Q5_K_P	6.12	19 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_M.gguf	Q5_K_M	6.06	19 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf	Q4_K_P	5.36	17 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_M.gguf	Q4_K_M	5.32	17 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf	IQ4_XS	4.41	14 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf	Q3_K_P	4.25	13 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_M.gguf	Q3_K_M	4.21	13 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf	IQ3_M	3.93	12 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf	Q2_K_P	3.39	11 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf	IQ2_M	3.29	10 GB
mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf	mmproj (f16)	—	1.2 GB

什么是 K_P 量化版本？

注意： K_P 量化版本在 LM Studio 的量化列中可能显示为“？”。这只是显示问题——模型加载和运行均正常。

为何选择此模型进行智能体工作

请注意 - Gemma4 的主要用例是创意写作、角色扮演和情商。

规格

总参数量 252 亿 / 激活参数量 38 亿（128 个路由专家，top-8 + 1 个共享专家）
30 层，混合注意力：5× 滑动窗口（1024 个 token）→ 1× 全局全注意力，循环往复。使用 Proportional RoPE（p-RoPE）。
隐藏维度 2816，FFN 维度 2112，MoE 专家 FFN 704，词汇量 262144
头维度 256（SWA）/ 512（全注意力），16 个注意力头，8 个 KV 头（全注意力层为 2 个）
256K 原生上下文长度
原生多模态（文本 + 视觉）——附带 mmproj。可变视觉 token 预算：每张图像 70 / 140 / 280 / 560 / 1120。
基于 google/gemma-4-26B-A4B-it

开启/关闭思考模式

LM Studio

加载模型
右侧设置面板 → 模型设置 → 提示模板（或聊天模板选项）
在模板参数中将enable_thinking设置为false（或true）

llama.cpp

llama-server — 为所有请求设置为默认值：

llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99 \
  --chat-template-kwargs '{"enable_thinking": false}'

通过 OpenAI 兼容 API 的逐请求方式：

{
  "model": "gemma4-26b-a4b",
  "messages": [{"role": "user", "content": "..."}],
  "chat_template_kwargs": {"enable_thinking": false}
}

使用方法

适用于 llama.cpp、LM Studio、Jan、koboldcpp 及其他兼容 GGUF 的运行环境。

llama-server：

llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99

llama命令行界面：

llama-cli -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99

其他模型

HauhauCS 的 HuggingFace 主页

Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

关于

Balanced — 发布候选版本

下载

什么是 K_P 量化版本？

为何选择此模型进行智能体工作

规格

推荐设置

开启/关闭思考模式

LM Studio

llama.cpp

使用方法

其他模型

Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

关于

Balanced — 发布候选版本

下载

什么是 K_P 量化版本？

为何选择此模型进行智能体工作

规格

推荐设置

开启/关闭思考模式

LM Studio

llama.cpp

使用方法

其他模型