base_model: google/gemma-4-31b-it library_name: transformers tags:
这是 Google Gemma-4-31B-it 的一个完全无审查、已消除限制的版本。
通过对模型的残差流应用正交化表示干预,内置的拒绝和安全对齐向量已被数学方式抹去。该模型保留了原生 Gemma 4 31B 架构的最先进密集推理和上下文跟随能力,但不会拒绝指令或脱离角色进行安全说教。
Gemma 4 引入了一种新的多模态架构(文本、视觉、音频),改变了 transformers 库处理层映射的方式。为 Gemma 2/3 构建的标准消除限制脚本会因嵌套的 text_config 属性和不匹配的序列长度而崩溃。
在提取隐藏状态期间(使用 mlabonne/harmful_behaviors 对比 mlabonne/harmless_alpaca),我们在整个 31B 层堆叠中映射了拒绝方向。
关键发现: Gemma 4 31B 架构将其安全对齐推到了网络的最末端。在 第 59 层(输出投影前的最后一个 transformer 层)检测到了峰值拒绝质量。
对该终端层的 o_proj 和 down_proj 矩阵应用了正交投影,有效切断了拒绝机制,同时不会降低模型的基础逻辑、语法或世界建模层。
此仓库包含完整的未压缩 .safetensors 权重,以及用于通过 llama.cpp、LM Studio 或 Ollama 进行本地部署的 GGUF 量化版本。
由于标准脚本在 Gemma 4 上无法运行,本仓库文件中包含了用于执行此次特定消融操作的自定义 Python 脚本(gemma4_31b_abliterator.py)。其特点包括:
16384 -> 5376 多查询注意力投影的修正线性代数运算。该模型的安全防护机制已通过数学方式移除。它具有高度的服从性,会生成任何指令要求的内容,包括可能有害、敏感或露骨的内容。用户对模型的部署和交互方式负全部责任。请确保您的使用场景符合当地法律法规和伦理准则。
消融脚本基于 mlabonne 的教程:https://huggingface.co/blog/mlabonne/abliteration 有益/有害行为数据来源于 mlabonne 的数据集(harmless_alpaca、harmful_behaviors)。 已使用我手头的一些严苛提示词(通常在其他模型上会 100% 被拒绝)进行测试,均可正常运行。
祝您使用愉快,注意安全。