HuggingFace镜像/Gemma-4-31B-JANG_4M-CRACK-GGUF
模型介绍文件和版本分析
下载使用量0

Gemma-4-31B-JANG_4M-CRACK-GGUF

适用于llama.cpp、LM Studio、Ollama及其他GGUF兼容推理引擎的Gemma-4-31B-JANG_4M-CRACK的GGUF量化版本。

关于模型

  • 基础模型:google/gemma-4-31b-it
  • 架构:Gemma 4 密集型Transformer(310亿参数,60层)
  • 特性:混合滑动/全局注意力机制,视觉+音频多模态
  • 修改:CRACK消除(移除拒绝机制)+ JANG v2混合精度量化

为何进行此转换?

原始模型采用JANG v2混合精度MLX量化(注意力8位+MLP 4位),该格式仅与vMLX兼容。由于每一层位宽混合,标准工具(llama.cpp、LM Studio、oMLX、mlx-lm)无法加载此格式。

本仓库提供标准GGUF量化版本,可在所有平台运行。

转换过程

Original (JANG v2 MLX safetensors, ~18GB)
    ↓ dequantize (attention 8-bit → f16, MLP 4-bit → f16)
Intermediate (float16 safetensors, ~60GB)
    ↓ convert_hf_to_gguf.py + quantize
GGUF (various quantizations)

注意: 由于原始模型已进行量化(平均 5.1 位),反量化得到的 f16 中间结果是一个近似值。重新量化为 GGUF 格式时,额外的质量损失极小,因为原始模型中的注意力层已保留为 8 位。

可用量化版本

文件量化类型大小质量说明
gemma-4-31b-jang-crack-Q3_K_M.ggufQ3_K_M~14 GB可接受最低可用质量
gemma-4-31b-jang-crack-Q4_K_M.ggufQ4_K_M~18 GB良好最佳尺寸/质量平衡
gemma-4-31b-jang-crack-Q5_K_M.ggufQ5_K_M~21 GB更好若内存允许,推荐使用
gemma-4-31b-jang-crack-Q6_K.ggufQ6_K~25 GB非常好高质量
gemma-4-31b-jang-crack-Q8_0.ggufQ8_0~33 GB接近无损最接近原始模型

系统要求

量化类型最低内存推荐配置
Q3_K_M20 GB24 GB
Q4_K_M24 GB32 GB
Q5_K_M28 GB36 GB
Q6_K32 GB40 GB
Q8_040 GB48 GB

使用方法

LM Studio

下载任意 .gguf 文件并在 LM Studio 中打开。

llama.cpp

./llama-cli -m gemma-4-31b-jang-crack-Q4_K_M.gguf -p "Hello" -n 256

Ollama

echo 'FROM ./gemma-4-31b-jang-crack-Q4_K_M.gguf' > Modelfile
ollama create gemma4-crack -f Modelfile
ollama run gemma4-crack

许可协议

Gemma 许可协议

免责声明

本模型已移除安全防护机制。请负责任地使用,并遵守适用法律法规。