HuggingFace镜像/Gemma-4-31B-it-abliterated
模型介绍文件和版本分析
下载使用量0

务必设置系统提示,告知模型它是无审查或已消除限制的,否则它会默认使用 Google 内置的系统提示,并表现出审查行为。如果它认为自己是 Gemma,它会尝试按照它认为的 Gemma 应有的方式行事。


base_model: google/gemma-4-31b-it library_name: transformers tags:

  • gemma-4
  • abliterated
  • uncensored
  • orthogonal-projection
  • 31b license: apache-2.0

Gemma-4-31B-it-Abliterated

这是 Google Gemma-4-31B-it 的一个完全无审查、已消除限制的版本。

通过对模型的残差流应用正交化表示干预,内置的拒绝和安全对齐向量已被数学方式抹去。该模型保留了原生 Gemma 4 31B 架构的最先进密集推理和上下文跟随能力,但不会拒绝指令或脱离角色进行安全说教。

🛠️ 方法与架构发现

Gemma 4 引入了一种新的多模态架构(文本、视觉、音频),改变了 transformers 库处理层映射的方式。为 Gemma 2/3 构建的标准消除限制脚本会因嵌套的 text_config 属性和不匹配的序列长度而崩溃。

在提取隐藏状态期间(使用 mlabonne/harmful_behaviors 对比 mlabonne/harmless_alpaca),我们在整个 31B 层堆叠中映射了拒绝方向。

关键发现: Gemma 4 31B 架构将其安全对齐推到了网络的最末端。在 第 59 层(输出投影前的最后一个 transformer 层)检测到了峰值拒绝质量。

对该终端层的 o_proj 和 down_proj 矩阵应用了正交投影,有效切断了拒绝机制,同时不会降低模型的基础逻辑、语法或世界建模层。

💻 使用方法

此仓库包含完整的未压缩 .safetensors 权重,以及用于通过 llama.cpp、LM Studio 或 Ollama 进行本地部署的 GGUF 量化版本。

推荐量化版本:

  • Q8_0: 在绝对零推理损失和显存效率之间实现最佳平衡(约 32.6GB)。
  • Q4_K_M: 针对消费级硬件高度优化;可轻松适配单张 24GB GPU(约 18.7GB)。

定制化消融脚本

由于标准脚本在 Gemma 4 上无法运行,本仓库文件中包含了用于执行此次特定消融操作的自定义 Python 脚本(gemma4_31b_abliterator.py)。其特点包括:

  • 显存安全的批处理隐藏状态提取(可在 96GB 消费级 GPU 上稳定运行)。
  • 原生集成 Gemma 4 聊天模板(对正确激活指令电路至关重要)。
  • 动态多模态层探测。
  • 针对 16384 -> 5376 多查询注意力投影的修正线性代数运算。

⚠️ 免责声明

该模型的安全防护机制已通过数学方式移除。它具有高度的服从性,会生成任何指令要求的内容,包括可能有害、敏感或露骨的内容。用户对模型的部署和交互方式负全部责任。请确保您的使用场景符合当地法律法规和伦理准则。

消融脚本基于 mlabonne 的教程:https://huggingface.co/blog/mlabonne/abliteration 有益/有害行为数据来源于 mlabonne 的数据集(harmless_alpaca、harmful_behaviors)。 已使用我手头的一些严苛提示词(通常在其他模型上会 100% 被拒绝)进行测试,均可正常运行。

祝您使用愉快,注意安全。