Prism ML 官网 | 白皮书 | 演示与示例 | Discord
适用于 Apple Silicon 的三值(1.58 位)语言模型
比 FP16 小 7.1 倍 | 在 M4 Pro 上快 5.2 倍 | 在 iPhone 上达 27 令牌/秒 | 可在 Mac、iPhone、iPad 上运行
| 项目 | 规格 |
|---|---|
| 基础模型 | Qwen3-8B |
| 参数数量 | 8.19B(非嵌入层约 6.95B) |
| 架构 | GQA(32 个查询头 / 8 个键值头)、SwiGLU MLP、RoPE、RMSNorm |
| 层数 | 36 个 Transformer 解码器块 |
| 上下文长度 | 65,536 令牌 |
| 词汇表大小 | 151,936 |
| 权重格式 | 三值 g128:{-1, 0, +1},带 FP16 分组缩放 |
| 2 位压缩大小 | 2.15 GiB(2.30 GB) |
| 三值覆盖范围 | 嵌入层、注意力投影层、MLP 投影层、语言模型头 |
| 许可证 | Apache 2.0 |
每个权重取值为 {-1, 0, +1},每 128 个权重组成一组,共享一个 FP16 缩放因子:
w_i = scale_g * t_i, t_i in {-1, 0, +1}信息论成本为每权重 log2(3) ≈ 1.585 比特,加上 FP16 组缩放因子(每 128 个权重 16 比特),理论最小值约为 1.71 比特/权重。本版本使用 MLX 2 比特格式,该格式以 2 比特存储每个三元值并加上组缩放因子,实际效率约为 2.125 比特/权重。
与二进制(1 比特)相比,零值的加入提供了更具表现力的权重表示,使得模型在极端压缩下能更好地保持质量。
| 格式 | 大小 | 缩减比例 | 压缩比 |
|---|---|---|---|
| FP16 | 16.38 GB | -- | 1.0x |
| MLX 2-bit g128 | 2.15 GiB (2.30 GB) | 86.0% | 7.1x |
pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("prism-ml/Ternary-Bonsai-8B-mlx-2bit")
response = generate(
model,
tokenizer,
prompt="Explain quantum computing in simple terms.",
max_tokens=256,
)
print(response)Ternary Bonsai 8B 通过 MLX Swift 在 iPhone 和 iPad 上原生运行,在 iPhone 17 Pro Max 上的速度可达 27 tok/s。2 位格式开箱即支持。
| 平台 | 后端 | PP512(tok/s) | TG128(tok/s) | FP16 TG(tok/s) | 加速比 |
|---|---|---|---|---|---|
| M4 Pro 48 GB | MLX(Python) | 460 | 83 | 16 | 5.2 倍 |
| 平台 | 后端 | PP512(tok/s) | TG128(tok/s) | 4 位 TG(tok/s) | 加速比 |
|---|---|---|---|---|---|
| iPhone 17 Pro Max | MLX Swift | 363 | 27 | 14 | 1.9 倍 |
在相同的基础设施、生成参数和评分标准下,使用 EvalScope v1.4.2 + vLLM 0.15.1 在 NVIDIA H100 上进行评估。所有模型的参数范围均在 60 亿至 90 亿之间。
| 模型 | 大小 | 平均分 | MMLU-R | MuSR | GSM8K | HE+ | IFEval | BFCL |
|---|---|---|---|---|---|---|---|---|
| Qwen 3 8B | 16.38 GB | 79.3 | 83 | 55 | 93 | 82.3 | 81.5 | 81 |
| Ternary Bonsai 8B | 1.75 GB | 75.5 | 72.6 | 56.2 | 91 | 77.4 | 81.8 | 73.9 |
| 1-bit Bonsai 8B(先前版本) | 1.15 GB | 70.5 | 65.7 | 50 | 88 | 73.8 | 79.8 | 65.7 |
| RNJ 8B | 16.63 GB | 73.1 | 75.5 | 50.4 | 93.7 | 84.2 | 73.8 | 61.1 |
| Ministral3 8B | 16.04 GB | 71.0 | 68.9 | 53.8 | 87.9 | 72.6 | 67.4 | 75.4 |
| Olmo 3 7B | 14.60 GB | 70.9 | 72 | 56.1 | 92.5 | 79.3 | 87.1 | 38.4 |
尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/9,但在所有对比模型中仍排名第二。
density = -ln(1 - score/100) / size_GB| 模型 | 大小 | 智能密度(1/GB) |
|---|---|---|
| Ternary Bonsai 8B | 1.75 GB | 0.803 |
| 1-bit Bonsai 8B(先前版本) | 1.15 GB | 1.062 |
| Qwen 3 8B | 16.38 GB | 0.096 |
| RNJ 8B | 16.62 GB | 0.079 |
@techreport{ternarybonsai,
title = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
author = {Prism ML},
year = {2026},
month = {April},
url = {https://prismml.com}
}如遇问题、反馈或合作咨询,请联系:contact@prismml.com