HuggingFace镜像/Ternary-Bonsai-8B-mlx-2bit

Prism ML 官网 | 白皮书 | 演示与示例 | Discord

Ternary-Bonsai-8B-mlx-2bit

适用于 Apple Silicon 的三值（1.58 位）语言模型

比 FP16 小 7.1 倍 | 在 M4 Pro 上快 5.2 倍 | 在 iPhone 上达 27 令牌/秒 | 可在 Mac、iPhone、iPad 上运行

亮点

2.15 GiB（2.30 GB）的 2 位压缩大小（相比 FP16 的 16.38 GB）——可在任何 Mac 或 iPhone 上流畅运行
三值权重 {-1, 0, +1}，覆盖嵌入层、注意力投影层、MLP 投影层及语言模型头
6 个类别基准测试平均得分 75.5——以九分之一的尺寸达到与全精度 8B 模型相当的性能
相比早期 1 位 Bonsai 8B（70.5 分）提升 5 分，而额外占用空间仅约 0.6 GB
原生 MLX 格式，采用 128 分组大小和 FP16 缩放

Pareto Frontier

资源

白皮书
演示仓库 —— 包含 Bonsai 的部署、基准测试和集成示例
Discord —— 社区支持与更新
内核：MLX（Apple Silicon）· mlx-swift（iOS/macOS）—— 原生支持 2 位格式

模型概述

项目	规格
基础模型	Qwen3-8B
参数数量	8.19B（非嵌入层约 6.95B）
架构	GQA（32 个查询头 / 8 个键值头）、SwiGLU MLP、RoPE、RMSNorm
层数	36 个 Transformer 解码器块
上下文长度	65,536 令牌
词汇表大小	151,936
权重格式	三值 g128：{-1, 0, +1}，带 FP16 分组缩放
2 位压缩大小	2.15 GiB（2.30 GB）
三值覆盖范围	嵌入层、注意力投影层、MLP 投影层、语言模型头
许可证	Apache 2.0

量化格式：三值 g128

每个权重取值为 {-1, 0, +1}，每 128 个权重组成一组，共享一个 FP16 缩放因子：

w_i = scale_g * t_i,    t_i in {-1, 0, +1}

信息论成本为每权重 log2(3) ≈ 1.585 比特，加上 FP16 组缩放因子（每 128 个权重 16 比特），理论最小值约为 1.71 比特/权重。本版本使用 MLX 2 比特格式，该格式以 2 比特存储每个三元值并加上组缩放因子，实际效率约为 2.125 比特/权重。

与二进制（1 比特）相比，零值的加入提供了更具表现力的权重表示，使得模型在极端压缩下能更好地保持质量。

内存

格式	大小	缩减比例	压缩比
FP16	16.38 GB	--	1.0x
MLX 2-bit g128	2.15 GiB (2.30 GB)	86.0%	7.1x

快速开始

MLX（Python）

pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("prism-ml/Ternary-Bonsai-8B-mlx-2bit")

response = generate(
    model,
    tokenizer,
    prompt="Explain quantum computing in simple terms.",
    max_tokens=256,
)
print(response)

MLX Swift（iOS / macOS）

Ternary Bonsai 8B 通过 MLX Swift 在 iPhone 和 iPad 上原生运行，在 iPhone 17 Pro Max 上的速度可达 27 tok/s。2 位格式开箱即支持。

吞吐量（MLX / Apple Silicon）

平台	后端	PP512（tok/s）	TG128（tok/s）	FP16 TG（tok/s）	加速比
M4 Pro 48 GB	MLX（Python）	460	83	16	5.2 倍

iPhone 17 Pro Max（MLX Swift）

平台	后端	PP512（tok/s）	TG128（tok/s）	4 位 TG（tok/s）	加速比
iPhone 17 Pro Max	MLX Swift	363	27	14	1.9 倍

基准测试

在相同的基础设施、生成参数和评分标准下，使用 EvalScope v1.4.2 + vLLM 0.15.1 在 NVIDIA H100 上进行评估。所有模型的参数范围均在 60 亿至 90 亿之间。

模型	大小	平均分	MMLU-R	MuSR	GSM8K	HE+	IFEval	BFCL
Qwen 3 8B	16.38 GB	79.3	83	55	93	82.3	81.5	81
Ternary Bonsai 8B	1.75 GB	75.5	72.6	56.2	91	77.4	81.8	73.9
1-bit Bonsai 8B（先前版本）	1.15 GB	70.5	65.7	50	88	73.8	79.8	65.7
RNJ 8B	16.63 GB	73.1	75.5	50.4	93.7	84.2	73.8	61.1
Ministral3 8B	16.04 GB	71.0	68.9	53.8	87.9	72.6	67.4	75.4
Olmo 3 7B	14.60 GB	70.9	72	56.1	92.5	79.3	87.1	38.4

尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/9，但在所有对比模型中仍排名第二。

智能密度

density = -ln(1 - score/100) / size_GB

模型	大小	智能密度（1/GB）
Ternary Bonsai 8B	1.75 GB	0.803
1-bit Bonsai 8B（先前版本）	1.15 GB	1.062
Qwen 3 8B	16.38 GB	0.096
RNJ 8B	16.62 GB	0.079

局限性

初始版本仅提供 MLX 2-bit 格式；其他后端的更多格式即将推出
移动设备功耗测量为估算值，非硬件计量结果
全精度前沿模型持续发展；三元方法论与架构无关

引用

@techreport{ternarybonsai,
    title   = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
    author  = {Prism ML},
    year    = {2026},
    month   = {April},
    url     = {https://prismml.com}
}

联系方式

如遇问题、反馈或合作咨询，请联系：contact@prismml.com