适用于llama.cpp、LM Studio、Ollama及其他GGUF兼容推理引擎的Gemma-4-31B-JANG_4M-CRACK的GGUF量化版本。
原始模型采用JANG v2混合精度MLX量化(注意力8位+MLP 4位),该格式仅与vMLX兼容。由于每一层位宽混合,标准工具(llama.cpp、LM Studio、oMLX、mlx-lm)无法加载此格式。
本仓库提供标准GGUF量化版本,可在所有平台运行。
Original (JANG v2 MLX safetensors, ~18GB)
↓ dequantize (attention 8-bit → f16, MLP 4-bit → f16)
Intermediate (float16 safetensors, ~60GB)
↓ convert_hf_to_gguf.py + quantize
GGUF (various quantizations)注意: 由于原始模型已进行量化(平均 5.1 位),反量化得到的 f16 中间结果是一个近似值。重新量化为 GGUF 格式时,额外的质量损失极小,因为原始模型中的注意力层已保留为 8 位。
| 文件 | 量化类型 | 大小 | 质量 | 说明 |
|---|---|---|---|---|
gemma-4-31b-jang-crack-Q3_K_M.gguf | Q3_K_M | ~14 GB | 可接受 | 最低可用质量 |
gemma-4-31b-jang-crack-Q4_K_M.gguf | Q4_K_M | ~18 GB | 良好 | 最佳尺寸/质量平衡 |
gemma-4-31b-jang-crack-Q5_K_M.gguf | Q5_K_M | ~21 GB | 更好 | 若内存允许,推荐使用 |
gemma-4-31b-jang-crack-Q6_K.gguf | Q6_K | ~25 GB | 非常好 | 高质量 |
gemma-4-31b-jang-crack-Q8_0.gguf | Q8_0 | ~33 GB | 接近无损 | 最接近原始模型 |
| 量化类型 | 最低内存 | 推荐配置 |
|---|---|---|
| Q3_K_M | 20 GB | 24 GB |
| Q4_K_M | 24 GB | 32 GB |
| Q5_K_M | 28 GB | 36 GB |
| Q6_K | 32 GB | 40 GB |
| Q8_0 | 40 GB | 48 GB |
下载任意 .gguf 文件并在 LM Studio 中打开。
./llama-cli -m gemma-4-31b-jang-crack-Q4_K_M.gguf -p "Hello" -n 256echo 'FROM ./gemma-4-31b-jang-crack-Q4_K_M.gguf' > Modelfile
ollama create gemma4-crack -f Modelfile
ollama run gemma4-crack本模型已移除安全防护机制。请负责任地使用,并遵守适用法律法规。