Prism ML 官网 | 白皮书 | 演示与示例 | Colab 笔记本 | Discord

Bonsai-8B-mlx-1bit

适用于 Apple Silicon 的端到端 1 位语言模型

比 FP16 小 12.8 倍 | 在 M4 Pro 上快 8.4 倍 | 在 iPhone 上达 44 令牌/秒 | 可在 Mac、iPhone、iPad 上运行

亮点

1.28 GB 参数内存（从 FP16 的 16.38 GB 减少）——可在任何 Mac 或 iPhone 上流畅运行
端到端 1 位权重，覆盖嵌入层、注意力投影层、MLP 投影层和语言模型头
MLX 原生格式（1 位 g128），内置反量化内核——无需 FP16 实例化
具有竞争力的基准测试：6 个类别平均得分 70.5，与全精度 8B 模型性能相当，尺寸仅为其 1/14
跨平台支持：同时提供 GGUF Q1_0_g128 格式，适用于 llama.cpp

Frontier Efficiency

资源

Google Colab — 在浏览器中试用 Bonsai，无需任何设置
白皮书 — 如需了解 Bonsai 的更多详情，请查阅我们的白皮书
演示仓库 — 包含服务部署、基准测试和集成 Bonsai 的综合示例
Discord — 加入社区获取支持、参与讨论并获取最新动态
1 位内核：MLX 分支（Apple Silicon）· mlx-swift 分支（iOS/macOS）· llama.cpp 分支（CUDA + Metal）
Locally AI — 我们与 Locally AI 合作提供 iPhone 支持

模型概述

项目	规格说明
参数	8.19B（约6.95B非嵌入参数）
架构	Qwen3-8B 密集型：GQA（32个查询头 / 8个键值头）、SwiGLU MLP、RoPE、RMSNorm
层数	36个Transformer解码器块
上下文长度	65,536个token
词汇表大小	151,936
权重格式	MLX 1-bit g128
部署大小	1.28 GB（比FP16小12.8倍）
1-bit覆盖范围	嵌入层、注意力投影、MLP投影、语言模型头
许可证	Apache 2.0

量化格式：1-bit g128

每个权重为单个比特：0 映射为 −scale，1 映射为 +scale。每128个权重组成的组共享一个FP16比例因子。

MLX的量化格式通常每组存储一个比例因子和一个偏置：w = mlx_scale * bit + mlx_bias。为将我们仅含比例因子的1-bit权重打包到此格式中：

mlx_scale = 2 * original_scale
mlx_bias  = −original_scale

当 bit=0 时，这会重构 -scale；当 bit=1 时，则重构 +scale。由于 MLX 每个组存储两个 FP16 值（scale + bias）而非一个，因此每权重的有效位数略高于 GGUF 格式：

MLX 1-bit g128：1.25 bpw（1 个符号位 + 两个 16 位值分摊到 128 个权重上）
GGUF Q1_0_g128：1.125 bpw（1 个符号位 + 一个 16 位 scale 分摊到 128 个权重上）

内存需求

仅参数内存（加载到内存中的权重和 scale）：

格式	大小	缩减比例	压缩比
FP16	16.38 GB	—	1.0x
MLX 1-bit g128	1.28 GB	92.2%	12.8x
GGUF Q1_0_g128	1.15 GB	93.0%	14.2x

磁盘上的模型目录约为 1.30 GB（大了约 16 MB），因为除了权重外，它还包含分词器、配置文件和其他元数据文件。

最佳实践

生成参数

参数	默认值	建议范围
Temperature	0.5	0.5 -- 0.7
Top-k	20	20 -- 40
Top-p	0.9	0.85 -- 0.95
Repetition penalty	1.0
Presence penalty	0.0

系统提示词

您可以使用简单的系统提示词，例如：

You are a helpful assistant

快速入门

MLX（Python）

需要 PrismML 分支的 MLX，该分支支持 1 位内核（上游 PR 待处理）：
pip install mlx-lm
pip install mlx @ git+https://github.com/PrismML-Eng/mlx.git@prism

from mlx_lm import load, generate

model, tokenizer = load("prism-ml/Bonsai-8B-mlx-1bit")

response = generate(
    model,
    tokenizer,
    prompt="Explain quantum computing in simple terms.",
    max_tokens=256,
)
print(response)

MLX Swift（iOS / macOS）

1-bit Bonsai 8B 通过 MLX Swift 在 iPhone 和 iPad 上原生运行，在 iPhone 17 Pro Max 上的速度可达 44 令牌/秒。需使用我们的 mlx-swift 分支（含 1-bit 内核）（上游 PR 待处理）。

吞吐量（MLX / Apple Silicon）

平台	后端	TG128（令牌/秒）	FP16 TG（令牌/秒）	TG 对比 FP16	PP512（令牌/秒）	FP16 PP512（令牌/秒）
M4 Pro 48 GB	MLX（Python）	131	16	8.4 倍	472	434
M4 Pro 48 GB	llama.cpp Metal	85	16	5.4 倍	498	490

iPhone 17 Pro Max（MLX Swift）

FP16 无法在设备上运行；基准为 4-bit。

	1-bit（令牌/秒）	4-bit（令牌/秒）	1-bit 对比 4-bit
令牌生成	44	14	3.1 倍
提示处理	377	348	1.08 倍

Cross-platform throughput

能效

平台	Bonsai E_tg（毫瓦时/令牌）	基准 E_tg	优势
Mac M4 Pro（MLX）	0.074	0.415（FP16）	5.6 倍
Mac M4 Pro（Metal）	0.091	0.471（FP16）	5.1 倍
iPhone 17 Pro Max	~0.068	~0.143（4-bit）	2.1 倍（对比 4-bit）

瞬时功耗较高并不妨碍能耗降低——令牌生成速度显著提升，使得每输出令牌能耗降低 4-6 倍。

Energy efficiency

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估，基础设施、生成参数和评分标准保持一致。所有模型均为 6B–9B 参数范围。

模型	公司	大小	平均分	MMLU-R	MuSR	GSM8K	HE+	IFEval	BFCL
Qwen 3 8B	Alibaba	16 GB	79.3	83	55	93	82.3	84.2	81
RNJ 8B	EssentialAI	16 GB	73.1	75.5	50.4	93.7	84.2	73.8	61.1
Mistral3 8B	Mistral	16 GB	71.0	73.9	53.8	87.2	67.4	75.4	45.4
Olmo 3 7B	Allen Inst	14 GB	70.9	72	56.1	92.5	79.3	37.1	38.4
1-bit Bonsai 8B	PrismML	1.15 GB	70.5	65.7	50	88	73.8	79.8	65.7
LFM2 8B	LiquidAI	16 GB	69.6	72.7	49.5	90.1	81	82.2	62.0
Llama 3.1 8B	Meta	16 GB	67.1	72.9	51.3	87.9	75	51.5	—
GLM v6 9B	ZhipuAI	16 GB	65.7	61.9	43.2	93.4	78.7	69.3	21.9
Hermes 8B	Nous Research	16 GB	65.4	67.4	52.2	82.9	51.2	65	73.5
Trinity Nano 6B	Arcee	12 GB	61.2	68.8	52.6	81.1	54	50	62.5
Marin 8B	Stanford CRFM	16 GB	56.6	64.8	42.6	86.4	51	50	—
R1-D 7B	DeepSeek	14 GB	55.1	62.5	29.1	92.7	81.7	48.8	15.4

尽管体积仅为 1/14，1-bit Bonsai 8B 仍可与领先的全精度 8B 指令模型相媲美。

智能密度

智能密度体现了模型能力与其部署规模之间的比率：

alpha = -ln(1 - score/100) / size_GB

模型	大小	智能密度（1/GB）
1-bit Bonsai 8B	1.15 GB	1.062
Qwen 3 8B	16 GB	0.098
Llama 3.1 8B	16 GB	0.074
Mistral3 8B	16 GB	0.077

Bonsai 8B 的智能密度比全精度 Qwen 3 8B 高出 10.8 倍。

Intelligence density

应用场景

设备端助手：在 Mac、iPhone 和 iPad 上实现低延迟、高隐私的交互式 AI
移动部署：内存占用低，可在多种手机上运行
边缘机器人与自主系统：在有散热、内存或连接限制的设备上实现紧凑部署
成本敏感型 GPU 服务：在通用 GPU 部署中实现更高吞吐量和更低每 token 能耗
企业级与私有推理：满足数据驻留要求的本地或受控环境推理

局限性

目前尚无原生 1 位硬件——当前性能提升源于通用硬件上的软件内核优化
移动设备功耗测量为估算值（基于 Xcode 功耗分析器），非硬件计量结果
全精度基准领域持续发展；1 位方法与架构无关，未来将应用于更新的基础模型

引用

如果您使用 1-bit Bonsai 8B，请引用：

@techreport{bonsai8b,
    title   = {1-bit Bonsai 8B: End-to-End 1-bit Language Model Deployment
               Across Apple, GPU, and Mobile Runtimes},
    author  = {Prism ML},
    year    = {2026},
    month   = {March},
    url     = {https://prismml.com}
}

联系方式

如遇问题、反馈或合作咨询，请联系：contact@prismml.com