Prism ML 官网 | 白皮书 | 演示与示例 | Discord

Ternary-Bonsai-8B-gguf

适用于 llama.cpp 的 GGUF Q2_0 格式三元（1.58 位）语言模型

Pareto Frontier

资源

白皮书
演示仓库 — Bonsai 的部署、基准测试和集成示例
Discord — 社区支持与更新
内核：Q2_0 尚未纳入 llama.cpp 主线版本。请使用我们的分支 PrismML-Eng/llama.cpp（prism 分支，默认），该分支为 CPU（NEON/通用）和 Metal 添加了 Q2_0 支持。上游 PR 即将发布。

模型概述

项目	规格
基础模型	Qwen3-8B
参数数量	8.19B（约 6.95B 非嵌入参数）
架构	GQA（32 个查询头 / 8 个键值头）、SwiGLU MLP、RoPE、RMSNorm
层数	36 个 Transformer 解码器块
上下文长度	65,536 个 token
词汇表大小	151,936
权重格式	GGUF Q2_0 g128：{-1, 0, +1} 带 FP16 分组缩放
压缩后 Q2_0 大小	2.03 GiB（2.18 GB）
三元化覆盖范围	嵌入层、注意力投影层、MLP 投影层、语言模型头
许可证	Apache 2.0

量化格式：GGUF Q2_0 (g128)

每个权重取值为{-1, 0, +1}，每128个权重组成一组，共享一个FP16 scale：

w_i = scale_g * t_i,    t_i in {-1, 0, +1}

Q2_0 将每个权重编码为 2 位代码 q in {0, 1, 2, 3}，通过 w = (q - 1) * scale 进行反量化。一个 128 元素的块大小为 34 字节（2 字节 FP16 缩放因子 + 32 字节的压缩 2 位代码），有效位宽为 2.125 位/权重。第四个代码点（q = 3，重构为 +2 * scale）保留用于未来扩展；对于三值权重，此代码点未使用。

内存占用

格式	大小	压缩率	比例
FP16	16.38 GB	--	1.0x
GGUF Q2_0 g128	2.03 GiB (2.18 GB)	86.7%	7.5x

仓库中的文件

文件	格式	大小	推荐使用
`Ternary-Bonsai-8B-F16.gguf`	FP16	16.38 GB	基准线 / 重新量化源
`Ternary-Bonsai-8B-Q2_0.gguf`	Q2_0 (g128)	2.03 GiB	推荐（三值无损）

快速开始

从 Prism 分支构建

git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
cmake -B build -DGGML_METAL=ON   # or -DGGML_CUDA=ON, -DGGML_VULKAN=ON
cmake --build build -j

`llama.cpp` 命令行界面

./build/bin/llama-cli \
  -m Ternary-Bonsai-8B-Q2_0.gguf \
  -p "Explain quantum computing in simple terms." \
  -n 256

`llama.cpp` 服务器

./build/bin/llama-server -m Ternary-Bonsai-8B-Q2_0.gguf -c 4096

吞吐量（llama.cpp，Apple M4 Pro 48 GB）

后端	PP512（令牌/秒）	TG128（令牌/秒）
Metal（GPU）	455	76
NEON CPU（10 t）	146	32

标志：Metal 使用 -ngl 99 -fa 1；CPU 使用 -ngl 0 -fa 1 -t 10。

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估，基础设施、生成参数和评分标准保持一致。所有模型均为 60 亿 - 90 亿参数范围。

模型	大小	平均值	MMLU-R	MuSR	GSM8K	HE+	IFEval	BFCL
Qwen 3 8B	16.38 GB	79.3	83	55	93	82.3	81.5	81
Ternary Bonsai 8B	2.18 GB	75.5	72.6	56.2	91	77.4	81.8	73.9
1-bit Bonsai 8B (prior)	1.15 GB	70.5	65.7	50	88	73.8	79.8	65.7
RNJ 8B	16.63 GB	73.1	75.5	50.4	93.7	84.2	73.8	61.1
Ministral3 8B	16.04 GB	71.0	68.9	53.8	87.9	72.6	67.4	75.4
Olmo 3 7B	14.60 GB	70.9	72	56.1	92.5	79.3	87.1	38.4

尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/8，但在所有对比模型中仍排名第二。

智能密度

density = -ln(1 - score/100) / size_GB

模型	大小	智能密度 (1/GB)
Ternary Bonsai 8B	2.18 GB	0.645
1-bit Bonsai 8B (先前)	1.15 GB	1.062
Qwen 3 8B	16.38 GB	0.096
RNJ 8B	16.62 GB	0.079

引用

@techreport{ternarybonsai,
    title   = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
    author  = {Prism ML},
    year    = {2026},
    month   = {April},
    url     = {https://prismml.com}
}

联系方式

如有问题、反馈或合作咨询，请联系：contact@prismml.com

Prism ML 官网 | 白皮书 | 演示与示例 | Discord

Ternary-Bonsai-8B-gguf

适用于 llama.cpp 的 GGUF Q2_0 格式三元（1.58 位）语言模型

Pareto Frontier

资源

白皮书
演示仓库 — Bonsai 的部署、基准测试和集成示例
Discord — 社区支持与更新
内核：Q2_0 尚未纳入 llama.cpp 主线版本。请使用我们的分支 PrismML-Eng/llama.cpp（prism 分支，默认），该分支为 CPU（NEON/通用）和 Metal 添加了 Q2_0 支持。上游 PR 即将发布。

模型概述

项目	规格
基础模型	Qwen3-8B
参数数量	8.19B（约 6.95B 非嵌入参数）
架构	GQA（32 个查询头 / 8 个键值头）、SwiGLU MLP、RoPE、RMSNorm
层数	36 个 Transformer 解码器块
上下文长度	65,536 个 token
词汇表大小	151,936
权重格式	GGUF Q2_0 g128：{-1, 0, +1} 带 FP16 分组缩放
压缩后 Q2_0 大小	2.03 GiB（2.18 GB）
三元化覆盖范围	嵌入层、注意力投影层、MLP 投影层、语言模型头
许可证	Apache 2.0

量化格式：GGUF Q2_0 (g128)

每个权重取值为{-1, 0, +1}，每128个权重组成一组，共享一个FP16 scale：

w_i = scale_g * t_i,    t_i in {-1, 0, +1}

内存占用

格式	大小	压缩率	比例
FP16	16.38 GB	--	1.0x
GGUF Q2_0 g128	2.03 GiB (2.18 GB)	86.7%	7.5x

仓库中的文件

文件	格式	大小	推荐使用
`Ternary-Bonsai-8B-F16.gguf`	FP16	16.38 GB	基准线 / 重新量化源
`Ternary-Bonsai-8B-Q2_0.gguf`	Q2_0 (g128)	2.03 GiB	推荐（三值无损）

快速开始

从 Prism 分支构建

git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
cmake -B build -DGGML_METAL=ON   # or -DGGML_CUDA=ON, -DGGML_VULKAN=ON
cmake --build build -j

`llama.cpp` 命令行界面

./build/bin/llama-cli \
  -m Ternary-Bonsai-8B-Q2_0.gguf \
  -p "Explain quantum computing in simple terms." \
  -n 256

`llama.cpp` 服务器

./build/bin/llama-server -m Ternary-Bonsai-8B-Q2_0.gguf -c 4096

吞吐量（llama.cpp，Apple M4 Pro 48 GB）

后端	PP512（令牌/秒）	TG128（令牌/秒）
Metal（GPU）	455	76
NEON CPU（10 t）	146	32

标志：Metal 使用 -ngl 99 -fa 1；CPU 使用 -ngl 0 -fa 1 -t 10。

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估，基础设施、生成参数和评分标准保持一致。所有模型均为 60 亿 - 90 亿参数范围。

模型	大小	平均值	MMLU-R	MuSR	GSM8K	HE+	IFEval	BFCL
Qwen 3 8B	16.38 GB	79.3	83	55	93	82.3	81.5	81
Ternary Bonsai 8B	2.18 GB	75.5	72.6	56.2	91	77.4	81.8	73.9
1-bit Bonsai 8B (prior)	1.15 GB	70.5	65.7	50	88	73.8	79.8	65.7
RNJ 8B	16.63 GB	73.1	75.5	50.4	93.7	84.2	73.8	61.1
Ministral3 8B	16.04 GB	71.0	68.9	53.8	87.9	72.6	67.4	75.4
Olmo 3 7B	14.60 GB	70.9	72	56.1	92.5	79.3	87.1	38.4

尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/8，但在所有对比模型中仍排名第二。

智能密度

density = -ln(1 - score/100) / size_GB

模型	大小	智能密度 (1/GB)
Ternary Bonsai 8B	2.18 GB	0.645
1-bit Bonsai 8B (先前)	1.15 GB	1.062
Qwen 3 8B	16.38 GB	0.096
RNJ 8B	16.62 GB	0.079

引用

@techreport{ternarybonsai,
    title   = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
    author  = {Prism ML},
    year    = {2026},
    month   = {April},
    url     = {https://prismml.com}
}

联系方式

如有问题、反馈或合作咨询，请联系：contact@prismml.com

Ternary-Bonsai-8B-gguf

资源

模型概述

量化格式：GGUF Q2_0 (g128)

内存占用

仓库中的文件

快速开始

从 Prism 分支构建

llama.cpp 命令行界面

llama.cpp 服务器

吞吐量（llama.cpp，Apple M4 Pro 48 GB）

基准测试

智能密度

引用

联系方式

Ternary-Bonsai-8B-gguf

资源

模型概述

量化格式：GGUF Q2_0 (g128)

内存占用

仓库中的文件

快速开始

从 Prism 分支构建

llama.cpp 命令行界面

llama.cpp 服务器

吞吐量（llama.cpp，Apple M4 Pro 48 GB）

基准测试

智能密度

引用

联系方式

`llama.cpp` 命令行界面

`llama.cpp` 服务器

`llama.cpp` 命令行界面

`llama.cpp` 服务器