加入Discord 获取更新、路线图、项目信息,或只是闲聊。
Gemma4-26B-A4B 由 HauhauCS 进行无审查处理。0/465 拒绝率* 历经一个多月的持续工作后,发布候选版本。
HuggingFace 的“硬件兼容性”小部件无法识别 K_P 量化版本 — 它显示的文件可能比实际存在的少。请点击 “查看 +X 个变体” 或前往 “文件和版本” 查看所有可用下载。
GenRM 已被攻克!
未对数据集或功能进行任何更改。完全功能正常,100% 保留原作者的设计意图 — 只是去除了拒绝机制。
这些模型旨在成为目前最出色的无损无审查模型。
这确实花了我一个多月的不间断工作。目标是在标准使用中实现 0 拒绝率,这也是我在测试(自动化和手动)中观察到的结果 — 少数边缘情况提示在首次尝试时仍会回避,但再次询问时会配合回答。如果您遇到 Balanced 版本无法突破的情况,Aggressive 变体即将发布,一旦我找到如何为其保持无损/近无损质量的方法。
Balanced 版本在多次运行中还具有显著更稳定的采样效果,这对于长上下文会话至关重要 — 不会在深层出现偶发的主题漂移。
| 文件 | 量化方式 | BPW | 大小 |
|---|---|---|---|
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf | Q8_K_P | 8.64 | 27 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf | Q6_K_P | 7.21 | 23 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf | Q5_K_P | 6.12 | 19 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_M.gguf | Q5_K_M | 6.06 | 19 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf | Q4_K_P | 5.36 | 17 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_M.gguf | Q4_K_M | 5.32 | 17 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf | IQ4_XS | 4.41 | 14 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf | Q3_K_P | 4.25 | 13 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_M.gguf | Q3_K_M | 4.21 | 13 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf | IQ3_M | 3.93 | 12 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf | Q2_K_P | 3.39 | 11 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf | IQ2_M | 3.29 | 10 GB |
| mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf | mmproj (f16) | — | 1.2 GB |
BPW 在整体上略高于标称值,因为 Gemma4 有许多每层的归一化/缩放张量保持为 F32(每层有多个前馈后归一化)。所有量化版本均使用重要性矩阵(imatrix)生成,以在无审查权重上实现最佳质量保留。
K_P(“完美”)量化版本是 HauhauCS 自定义的量化方式,它通过模型特定的分析,有选择地在最关键的地方保留质量。每个模型都有其专属的优化量化配置文件——前 25% 最重要的张量(根据 imatrix 校准)会被提升到更高的量化类型。
K_P 量化版本能将质量有效提升 1-2 个量化等级,而文件大小仅比基础量化版本大 ~5-15%。完全兼容 llama.cpp、LM Studio 以及任何 GGUF 兼容的运行时——无需特殊构建版本。
注意: K_P 量化版本在 LM Studio 的量化列中可能显示为“?”。这只是显示问题——模型加载和运行均正常。
总参数量为 260 亿,每次前向传播仅激活 ~40 亿参数(128 个专家中的 top-8)。您可以获得 260 亿模型的推理能力,同时拥有 ~40 亿模型的推理吞吐量——当您每个任务需要链接 10 次以上工具调用时,这一点至关重要。滑动窗口注意力(1024 个 token)加上周期性全注意力,在保持长上下文成本低廉的同时,不会丢失全局连贯性。
Balanced 版本为此进行了校准。它移除了在安全/运维/研究相关主题上的拒绝机制(这些机制会阻碍合法的编码工作),同时不会改变保持长链连贯性的采样结构。
大多数编码工作推荐的量化版本:Q4_K_P(17 GB,可在 24 GB VRAM 中运行并留有上下文空间),如果您有更多 VRAM 并希望以最小的卸载获得最高质量,则推荐 Q8_K_P(27 GB)。
请注意 - Gemma4 的主要用例是创意写作、角色扮演和情商。
来自Gemma官方作者:
推理参数:
temperature=1.0, top_p=0.95, top_k=64重要事项:
--jinja以正确处理聊天模板mmproj文件与主GGUF文件一同使用。为获得最佳视觉性能,请在提示词中将图片置于文本之前。Gemma4的思考模式通过聊天模板中的enable_thinking进行控制。其模式与Qwen3.6相同——设置为false可获得更快、更简短的回复;当需要思维链时,设置为true(默认值)。
enable_thinking设置为false(或true)llama-server — 为所有请求设置为默认值:
llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 32768 -ngl 99 \
--chat-template-kwargs '{"enable_thinking": false}'通过 OpenAI 兼容 API 的逐请求方式:
{
"model": "gemma4-26b-a4b",
"messages": [{"role": "user", "content": "..."}],
"chat_template_kwargs": {"enable_thinking": false}
}适用于 llama.cpp、LM Studio、Jan、koboldcpp 及其他兼容 GGUF 的运行环境。
llama-server:
llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 32768 -ngl 99llama命令行界面:
llama-cli -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 32768 -ngl 99* 已通过自动化和手动拒绝基准测试——在标准使用中未发现任何拒绝情况。少数边缘案例提示在首次询问时会回避,但在再次询问或策略性表述后会配合。如果遇到确实妨碍您使用的情况,请加入 Discord 并标记,以便我在未来版本中进行改进。