务必设置系统提示，告知模型它是无审查或已消除限制的，否则它会默认使用 Google 内置的系统提示，并表现出审查行为。如果它认为自己是 Gemma，它会尝试按照它认为的 Gemma 应有的方式行事。

base_model: google/gemma-4-31b-it library_name: transformers tags:

gemma-4
abliterated
uncensored
orthogonal-projection
31b license: apache-2.0

Gemma-4-31B-it-Abliterated

这是 Google Gemma-4-31B-it 的一个完全无审查、已消除限制的版本。

通过对模型的残差流应用正交化表示干预，内置的拒绝和安全对齐向量已被数学方式抹去。该模型保留了原生 Gemma 4 31B 架构的最先进密集推理和上下文跟随能力，但不会拒绝指令或脱离角色进行安全说教。

🛠️ 方法与架构发现

Gemma 4 引入了一种新的多模态架构（文本、视觉、音频），改变了 transformers 库处理层映射的方式。为 Gemma 2/3 构建的标准消除限制脚本会因嵌套的 text_config 属性和不匹配的序列长度而崩溃。

在提取隐藏状态期间（使用 mlabonne/harmful_behaviors 对比 mlabonne/harmless_alpaca），我们在整个 31B 层堆叠中映射了拒绝方向。

关键发现： Gemma 4 31B 架构将其安全对齐推到了网络的最末端。在 第 59 层（输出投影前的最后一个 transformer 层）检测到了峰值拒绝质量。

对该终端层的 o_proj 和 down_proj 矩阵应用了正交投影，有效切断了拒绝机制，同时不会降低模型的基础逻辑、语法或世界建模层。

💻 使用方法

此仓库包含完整的未压缩 .safetensors 权重，以及用于通过 llama.cpp、LM Studio 或 Ollama 进行本地部署的 GGUF 量化版本。

定制化消融脚本

由于标准脚本在 Gemma 4 上无法运行，本仓库文件中包含了用于执行此次特定消融操作的自定义 Python 脚本（gemma4_31b_abliterator.py）。其特点包括：

显存安全的批处理隐藏状态提取（可在 96GB 消费级 GPU 上稳定运行）。
原生集成 Gemma 4 聊天模板（对正确激活指令电路至关重要）。
动态多模态层探测。
针对 16384 -> 5376 多查询注意力投影的修正线性代数运算。

⚠️ 免责声明

该模型的安全防护机制已通过数学方式移除。它具有高度的服从性，会生成任何指令要求的内容，包括可能有害、敏感或露骨的内容。用户对模型的部署和交互方式负全部责任。请确保您的使用场景符合当地法律法规和伦理准则。

消融脚本基于 mlabonne 的教程：https://huggingface.co/blog/mlabonne/abliteration 有益/有害行为数据来源于 mlabonne 的数据集（harmless_alpaca、harmful_behaviors）。已使用我手头的一些严苛提示词（通常在其他模型上会 100% 被拒绝）进行测试，均可正常运行。

祝您使用愉快，注意安全。

Gemma-4-31B-it-Abliterated

这是 Google Gemma-4-31B-it 的一个完全无审查、已消除限制的版本。

🛠️ 方法与架构发现

在提取隐藏状态期间（使用 mlabonne/harmful_behaviors 对比 mlabonne/harmless_alpaca），我们在整个 31B 层堆叠中映射了拒绝方向。

关键发现： Gemma 4 31B 架构将其安全对齐推到了网络的最末端。在 第 59 层（输出投影前的最后一个 transformer 层）检测到了峰值拒绝质量。

对该终端层的 o_proj 和 down_proj 矩阵应用了正交投影，有效切断了拒绝机制，同时不会降低模型的基础逻辑、语法或世界建模层。

💻 使用方法

此仓库包含完整的未压缩 .safetensors 权重，以及用于通过 llama.cpp、LM Studio 或 Ollama 进行本地部署的 GGUF 量化版本。

推荐量化版本：

Q8_0： 在绝对零推理损失和显存效率之间实现最佳平衡（约 32.6GB）。

Q4_K_M： 针对消费级硬件高度优化；可轻松适配单张 24GB GPU（约 18.7GB）。

定制化消融脚本

由于标准脚本在 Gemma 4 上无法运行，本仓库文件中包含了用于执行此次特定消融操作的自定义 Python 脚本（gemma4_31b_abliterator.py）。其特点包括：

显存安全的批处理隐藏状态提取（可在 96GB 消费级 GPU 上稳定运行）。

原生集成 Gemma 4 聊天模板（对正确激活指令电路至关重要）。

动态多模态层探测。

针对 16384 -> 5376 多查询注意力投影的修正线性代数运算。

⚠️ 免责声明

祝您使用愉快，注意安全。