HuggingFace镜像/Ternary-Bonsai-8B-gguf
模型介绍文件和版本分析
下载使用量0

Bonsai

Prism ML 官网  |  白皮书  |  演示与示例  |  Discord

Ternary-Bonsai-8B-gguf

适用于 llama.cpp 的 GGUF Q2_0 格式三元(1.58 位)语言模型

Pareto Frontier

资源

  • 白皮书
  • 演示仓库 — Bonsai 的部署、基准测试和集成示例
  • Discord — 社区支持与更新
  • 内核:Q2_0 尚未纳入 llama.cpp 主线版本。请使用我们的分支 PrismML-Eng/llama.cpp(prism 分支,默认),该分支为 CPU(NEON/通用)和 Metal 添加了 Q2_0 支持。上游 PR 即将发布。

模型概述

项目规格
基础模型Qwen3-8B
参数数量8.19B(约 6.95B 非嵌入参数)
架构GQA(32 个查询头 / 8 个键值头)、SwiGLU MLP、RoPE、RMSNorm
层数36 个 Transformer 解码器块
上下文长度65,536 个 token
词汇表大小151,936
权重格式GGUF Q2_0 g128:{-1, 0, +1} 带 FP16 分组缩放
压缩后 Q2_0 大小2.03 GiB(2.18 GB)
三元化覆盖范围嵌入层、注意力投影层、MLP 投影层、语言模型头
许可证Apache 2.0

量化格式:GGUF Q2_0 (g128)

每个权重取值为{-1, 0, +1},每128个权重组成一组,共享一个FP16 scale:

w_i = scale_g * t_i,    t_i in {-1, 0, +1}

Q2_0 将每个权重编码为 2 位代码 q in {0, 1, 2, 3},通过 w = (q - 1) * scale 进行反量化。一个 128 元素的块大小为 34 字节(2 字节 FP16 缩放因子 + 32 字节的压缩 2 位代码),有效位宽为 2.125 位/权重。第四个代码点(q = 3,重构为 +2 * scale)保留用于未来扩展;对于三值权重,此代码点未使用。

内存占用

格式大小压缩率比例
FP1616.38 GB--1.0x
GGUF Q2_0 g1282.03 GiB (2.18 GB)86.7%7.5x

仓库中的文件

文件格式大小推荐使用
Ternary-Bonsai-8B-F16.ggufFP1616.38 GB基准线 / 重新量化源
Ternary-Bonsai-8B-Q2_0.ggufQ2_0 (g128)2.03 GiB推荐(三值无损)

快速开始

从 Prism 分支构建

git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
cmake -B build -DGGML_METAL=ON   # or -DGGML_CUDA=ON, -DGGML_VULKAN=ON
cmake --build build -j

llama.cpp 命令行界面

./build/bin/llama-cli \
  -m Ternary-Bonsai-8B-Q2_0.gguf \
  -p "Explain quantum computing in simple terms." \
  -n 256

llama.cpp 服务器

./build/bin/llama-server -m Ternary-Bonsai-8B-Q2_0.gguf -c 4096

吞吐量(llama.cpp,Apple M4 Pro 48 GB)

后端PP512(令牌/秒)TG128(令牌/秒)
Metal(GPU)45576
NEON CPU(10 t)14632

标志:Metal 使用 -ngl 99 -fa 1;CPU 使用 -ngl 0 -fa 1 -t 10。

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估,基础设施、生成参数和评分标准保持一致。所有模型均为 60 亿 - 90 亿参数范围。

模型大小平均值MMLU-RMuSRGSM8KHE+IFEvalBFCL
Qwen 3 8B16.38 GB79.383559382.381.581
Ternary Bonsai 8B2.18 GB75.572.656.29177.481.873.9
1-bit Bonsai 8B (prior)1.15 GB70.565.7508873.879.865.7
RNJ 8B16.63 GB73.175.550.493.784.273.861.1
Ministral3 8B16.04 GB71.068.953.887.972.667.475.4
Olmo 3 7B14.60 GB70.97256.192.579.387.138.4

尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/8,但在所有对比模型中仍排名第二。

智能密度

density = -ln(1 - score/100) / size_GB
模型大小智能密度 (1/GB)
Ternary Bonsai 8B2.18 GB0.645
1-bit Bonsai 8B (先前)1.15 GB1.062
Qwen 3 8B16.38 GB0.096
RNJ 8B16.62 GB0.079

引用

@techreport{ternarybonsai,
    title   = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
    author  = {Prism ML},
    year    = {2026},
    month   = {April},
    url     = {https://prismml.com}
}

联系方式

如有问题、反馈或合作咨询,请联系:contact@prismml.com