HuggingFace镜像/Ternary-Bonsai-8B-mlx-2bit
模型介绍文件和版本分析
下载使用量0

Bonsai

Prism ML 官网  |  白皮书  |  演示与示例  |  Discord

Ternary-Bonsai-8B-mlx-2bit

适用于 Apple Silicon 的三值(1.58 位)语言模型

比 FP16 小 7.1 倍 | 在 M4 Pro 上快 5.2 倍 | 在 iPhone 上达 27 令牌/秒 | 可在 Mac、iPhone、iPad 上运行

亮点

  • 2.15 GiB(2.30 GB)的 2 位压缩大小(相比 FP16 的 16.38 GB)——可在任何 Mac 或 iPhone 上流畅运行
  • 三值权重 {-1, 0, +1},覆盖嵌入层、注意力投影层、MLP 投影层及语言模型头
  • 6 个类别基准测试平均得分 75.5——以九分之一的尺寸达到与全精度 8B 模型相当的性能
  • 相比早期 1 位 Bonsai 8B(70.5 分)提升 5 分,而额外占用空间仅约 0.6 GB
  • 原生 MLX 格式,采用 128 分组大小和 FP16 缩放

Pareto Frontier

资源

  • 白皮书
  • 演示仓库 —— 包含 Bonsai 的部署、基准测试和集成示例
  • Discord —— 社区支持与更新
  • 内核:MLX(Apple Silicon)· mlx-swift(iOS/macOS)—— 原生支持 2 位格式

模型概述

项目规格
基础模型Qwen3-8B
参数数量8.19B(非嵌入层约 6.95B)
架构GQA(32 个查询头 / 8 个键值头)、SwiGLU MLP、RoPE、RMSNorm
层数36 个 Transformer 解码器块
上下文长度65,536 令牌
词汇表大小151,936
权重格式三值 g128:{-1, 0, +1},带 FP16 分组缩放
2 位压缩大小2.15 GiB(2.30 GB)
三值覆盖范围嵌入层、注意力投影层、MLP 投影层、语言模型头
许可证Apache 2.0

量化格式:三值 g128

每个权重取值为 {-1, 0, +1},每 128 个权重组成一组,共享一个 FP16 缩放因子:

w_i = scale_g * t_i,    t_i in {-1, 0, +1}

信息论成本为每权重 log2(3) ≈ 1.585 比特,加上 FP16 组缩放因子(每 128 个权重 16 比特),理论最小值约为 1.71 比特/权重。本版本使用 MLX 2 比特格式,该格式以 2 比特存储每个三元值并加上组缩放因子,实际效率约为 2.125 比特/权重。

与二进制(1 比特)相比,零值的加入提供了更具表现力的权重表示,使得模型在极端压缩下能更好地保持质量。

内存

格式大小缩减比例压缩比
FP1616.38 GB--1.0x
MLX 2-bit g1282.15 GiB (2.30 GB)86.0%7.1x

快速开始

MLX(Python)

pip install mlx-lm
from mlx_lm import load, generate

model, tokenizer = load("prism-ml/Ternary-Bonsai-8B-mlx-2bit")

response = generate(
    model,
    tokenizer,
    prompt="Explain quantum computing in simple terms.",
    max_tokens=256,
)
print(response)

MLX Swift(iOS / macOS)

Ternary Bonsai 8B 通过 MLX Swift 在 iPhone 和 iPad 上原生运行,在 iPhone 17 Pro Max 上的速度可达 27 tok/s。2 位格式开箱即支持。

吞吐量(MLX / Apple Silicon)

平台后端PP512(tok/s)TG128(tok/s)FP16 TG(tok/s)加速比
M4 Pro 48 GBMLX(Python)46083165.2 倍

iPhone 17 Pro Max(MLX Swift)

平台后端PP512(tok/s)TG128(tok/s)4 位 TG(tok/s)加速比
iPhone 17 Pro MaxMLX Swift36327141.9 倍

基准测试

在相同的基础设施、生成参数和评分标准下,使用 EvalScope v1.4.2 + vLLM 0.15.1 在 NVIDIA H100 上进行评估。所有模型的参数范围均在 60 亿至 90 亿之间。

模型大小平均分MMLU-RMuSRGSM8KHE+IFEvalBFCL
Qwen 3 8B16.38 GB79.383559382.381.581
Ternary Bonsai 8B1.75 GB75.572.656.29177.481.873.9
1-bit Bonsai 8B(先前版本)1.15 GB70.565.7508873.879.865.7
RNJ 8B16.63 GB73.175.550.493.784.273.861.1
Ministral3 8B16.04 GB71.068.953.887.972.667.475.4
Olmo 3 7B14.60 GB70.97256.192.579.387.138.4

尽管 Ternary Bonsai 8B 的大小仅为其他模型的 1/9,但在所有对比模型中仍排名第二。

智能密度

density = -ln(1 - score/100) / size_GB
模型大小智能密度(1/GB)
Ternary Bonsai 8B1.75 GB0.803
1-bit Bonsai 8B(先前版本)1.15 GB1.062
Qwen 3 8B16.38 GB0.096
RNJ 8B16.62 GB0.079

局限性

  • 初始版本仅提供 MLX 2-bit 格式;其他后端的更多格式即将推出
  • 移动设备功耗测量为估算值,非硬件计量结果
  • 全精度前沿模型持续发展;三元方法论与架构无关

引用

@techreport{ternarybonsai,
    title   = {Ternary Bonsai: 1.58-bit Language Models at 8B, 4B, and 1.7B Scale},
    author  = {Prism ML},
    year    = {2026},
    month   = {April},
    url     = {https://prismml.com}
}

联系方式

如遇问题、反馈或合作咨询,请联系:contact@prismml.com