Prism ML 官网 | 白皮书 | 演示与示例 | Discord
适用于 llama.cpp 的 GGUF Q2_0 格式三元(1.58 位)语言模型
llama.cpp 主线版本。请使用我们的分支 PrismML-Eng/llama.cpp(prism 分支,默认),该分支为 CPU(NEON/通用)和 Metal 添加了 Q2_0 支持。上游 PR 即将发布。| 项目 | 规格 |
|---|---|
| 基础模型 | Qwen3-8B |
| 参数数量 | 8.19B(约 6.95B 非嵌入参数) |
| 架构 | GQA(32 个查询头 / 8 个键值头)、SwiGLU MLP、RoPE、RMSNorm |
| 层数 | 36 个 Transformer 解码器块 |
| 上下文长度 | 65,536 个 token |
| 词汇表大小 | 151,936 |
| 权重格式 | GGUF Q2_0 g128:{-1, 0, +1} 带 FP16 分组缩放 |
| 压缩后 Q2_0 大小 | 2.03 GiB(2.18 GB) |
| 三元化覆盖范围 | 嵌入层、注意力投影层、MLP 投影层、语言模型头 |
| 许可证 | Apache 2.0 |
每个权重取值为{-1, 0, +1},每128个权重组成一组,共享一个FP16 scale:
w_i = scale_g * t_i, t_i in {-1, 0, +1}Q2_0 将每个权重编码为 2 位代码 q in {0, 1, 2, 3},通过 w = (q - 1) * scale 进行反量化。一个 128 元素的块大小为 34 字节(2 字节 FP16 缩放因子 + 32 字节的压缩 2 位代码),有效位宽为 2.125 位/权重。第四个代码点(q = 3,重构为 +2 * scale)保留用于未来扩展;对于三值权重,此代码点未使用。
| 格式 | 大小 | 压缩率 | 比例 |
|---|---|---|---|
| FP16 | 16.38 GB | -- | 1.0x |
| GGUF Q2_0 g128 | 2.03 GiB (2.18 GB) | 86.7% | 7.5x |
| 文件 | 格式 | 大小 | 推荐使用 |
|---|---|---|---|
Ternary-Bonsai-8B-F16.gguf | FP16 | 16.38 GB | 基准线 / 重新量化源 |
Ternary-Bonsai-8B-Q2_0.gguf | Q2_0 (g128) | 2.03 GiB | 推荐(三值无损) |
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
cmake -B build -DGGML_METAL=ON # or -DGGML_CUDA=ON, -DGGML_VULKAN=ON
cmake --build build -jllama.cpp 命令行界面./build/bin/llama-cli \
-m Ternary-Bonsai-8B-Q2_0.gguf \
-p "Explain quantum computing in simple terms." \
-n 256llama.cpp 服务器./build/bin/llama-server -m Ternary-Bonsai-8B-Q2_0.gguf -c 4096| 后端 | PP512(令牌/秒) | TG128(令牌/秒) |
|---|---|---|
| Metal(GPU) | 455 | 76 |
| NEON CPU(10 t) | 146 | 32 |
标志:Metal 使用 -ngl 99 -fa 1;CPU 使用 -ngl 0 -fa 1 -t 10。
在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估,基础设施、生成参数和评分标准保持一致。所有模型均为 60 亿 - 90 亿参数范围。
| 模型 | 大小 | 平均值 | MMLU-R | MuSR | GSM8K | HE+ | IFEval | BFCL |
|---|---|---|---|---|---|---|---|---|
| Qwen 3 8B | 16.38 GB | 79.3 | 83 | 55 | 93 | 82.3 | 81.5 | 81 |
| Ternary Bonsai 8B | 2.18 GB | 75.5 | 72.6 | 56.2 | 91 | 77.4 | 81.8 | 73.9 |
| 1-bit Bonsai 8B (prior) | 1.15 GB | 70.5 | 65.7 | 50 | 88 | 73.8 | 79.8 | 65.7 |
| RNJ 8B | 16.63 GB | 73.1 | 75.5 | 50.4 | 93.7 | 84.2 | 73.8 | 61.1 |
| Ministral3 8B | 16.04 GB | 71.0 | 68.9 | 53.8 | 87.9 | 72.6 | 67.4 | 75.4 |
| Olmo 3 7B | 14.60 GB | 70.9 | 72 | 56.1 | 92.5 | 79.3 | 87.1 | 38.4 |
尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/8,但在所有对比模型中仍排名第二。
density = -ln(1 - score/100) / size_GB| 模型 | 大小 | 智能密度 (1/GB) |
|---|---|---|
| Ternary Bonsai 8B | 2.18 GB | 0.645 |
| 1-bit Bonsai 8B (先前) | 1.15 GB | 1.062 |
| Qwen 3 8B | 16.38 GB | 0.096 |
| RNJ 8B | 16.62 GB | 0.079 |
@techreport{ternarybonsai,
title = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
author = {Prism ML},
year = {2026},
month = {April},
url = {https://prismml.com}
}如有问题、反馈或合作咨询,请联系:contact@prismml.com