Gemma-4-31B-JANG_4M-CRACK-GGUF

适用于llama.cpp、LM Studio、Ollama及其他GGUF兼容推理引擎的Gemma-4-31B-JANG_4M-CRACK的GGUF量化版本。

关于模型

基础模型：google/gemma-4-31b-it
架构：Gemma 4 密集型Transformer（310亿参数，60层）
特性：混合滑动/全局注意力机制，视觉+音频多模态
修改：CRACK消除（移除拒绝机制）+ JANG v2混合精度量化

为何进行此转换？

原始模型采用JANG v2混合精度MLX量化（注意力8位+MLP 4位），该格式仅与vMLX兼容。由于每一层位宽混合，标准工具（llama.cpp、LM Studio、oMLX、mlx-lm）无法加载此格式。

本仓库提供标准GGUF量化版本，可在所有平台运行。

转换过程

Original (JANG v2 MLX safetensors, ~18GB)
    ↓ dequantize (attention 8-bit → f16, MLP 4-bit → f16)
Intermediate (float16 safetensors, ~60GB)
    ↓ convert_hf_to_gguf.py + quantize
GGUF (various quantizations)

注意： 由于原始模型已进行量化（平均 5.1 位），反量化得到的 f16 中间结果是一个近似值。重新量化为 GGUF 格式时，额外的质量损失极小，因为原始模型中的注意力层已保留为 8 位。

可用量化版本

文件	量化类型	大小	质量	说明
`gemma-4-31b-jang-crack-Q3_K_M.gguf`	Q3_K_M	~14 GB	可接受	最低可用质量
`gemma-4-31b-jang-crack-Q4_K_M.gguf`	Q4_K_M	~18 GB	良好	最佳尺寸/质量平衡
`gemma-4-31b-jang-crack-Q5_K_M.gguf`	Q5_K_M	~21 GB	更好	若内存允许，推荐使用
`gemma-4-31b-jang-crack-Q6_K.gguf`	Q6_K	~25 GB	非常好	高质量
`gemma-4-31b-jang-crack-Q8_0.gguf`	Q8_0	~33 GB	接近无损	最接近原始模型

系统要求

量化类型	最低内存	推荐配置
Q3_K_M	20 GB	24 GB
Q4_K_M	24 GB	32 GB
Q5_K_M	28 GB	36 GB
Q6_K	32 GB	40 GB
Q8_0	40 GB	48 GB

使用方法

LM Studio

下载任意 .gguf 文件并在 LM Studio 中打开。

llama.cpp

./llama-cli -m gemma-4-31b-jang-crack-Q4_K_M.gguf -p "Hello" -n 256

Ollama

echo 'FROM ./gemma-4-31b-jang-crack-Q4_K_M.gguf' > Modelfile
ollama create gemma4-crack -f Modelfile
ollama run gemma4-crack

许可协议

Gemma 许可协议

免责声明

本模型已移除安全防护机制。请负责任地使用，并遵守适用法律法规。

转换过程

Original (JANG v2 MLX safetensors, ~18GB)
    ↓ dequantize (attention 8-bit → f16, MLP 4-bit → f16)
Intermediate (float16 safetensors, ~60GB)
    ↓ convert_hf_to_gguf.py + quantize
GGUF (various quantizations)

可用量化版本

文件	量化类型	大小	质量	说明
`gemma-4-31b-jang-crack-Q3_K_M.gguf`	Q3_K_M	~14 GB	可接受	最低可用质量
`gemma-4-31b-jang-crack-Q4_K_M.gguf`	Q4_K_M	~18 GB	良好	最佳尺寸/质量平衡
`gemma-4-31b-jang-crack-Q5_K_M.gguf`	Q5_K_M	~21 GB	更好	若内存允许，推荐使用
`gemma-4-31b-jang-crack-Q6_K.gguf`	Q6_K	~25 GB	非常好	高质量
`gemma-4-31b-jang-crack-Q8_0.gguf`	Q8_0	~33 GB	接近无损	最接近原始模型

量化类型

最低内存

推荐配置

Q3_K_M

20 GB

24 GB

Q4_K_M

24 GB

32 GB

Q5_K_M

28 GB

36 GB

Q6_K

32 GB

40 GB

Q8_0

40 GB

48 GB