HuggingFace镜像/Bonsai-8B-mlx-1bit
模型介绍文件和版本分析
下载使用量0

Bonsai

Prism ML 官网  |  白皮书  |  演示与示例  |  Colab 笔记本  |  Discord

Bonsai-8B-mlx-1bit

适用于 Apple Silicon 的端到端 1 位语言模型

比 FP16 小 12.8 倍 | 在 M4 Pro 上快 8.4 倍 | 在 iPhone 上达 44 令牌/秒 | 可在 Mac、iPhone、iPad 上运行

亮点

  • 1.28 GB 参数内存(从 FP16 的 16.38 GB 减少)——可在任何 Mac 或 iPhone 上流畅运行
  • 端到端 1 位权重,覆盖嵌入层、注意力投影层、MLP 投影层和语言模型头
  • MLX 原生格式(1 位 g128),内置反量化内核——无需 FP16 实例化
  • 具有竞争力的基准测试:6 个类别平均得分 70.5,与全精度 8B 模型性能相当,尺寸仅为其 1/14
  • 跨平台支持:同时提供 GGUF Q1_0_g128 格式,适用于 llama.cpp

Frontier Efficiency

资源

  • Google Colab — 在浏览器中试用 Bonsai,无需任何设置
  • 白皮书 — 如需了解 Bonsai 的更多详情,请查阅我们的白皮书
  • 演示仓库 — 包含服务部署、基准测试和集成 Bonsai 的综合示例
  • Discord — 加入社区获取支持、参与讨论并获取最新动态
  • 1 位内核:MLX 分支(Apple Silicon)· mlx-swift 分支(iOS/macOS)· llama.cpp 分支(CUDA + Metal)
  • Locally AI — 我们与 Locally AI 合作提供 iPhone 支持

模型概述

项目规格说明
参数8.19B(约6.95B非嵌入参数)
架构Qwen3-8B 密集型:GQA(32个查询头 / 8个键值头)、SwiGLU MLP、RoPE、RMSNorm
层数36个Transformer解码器块
上下文长度65,536个token
词汇表大小151,936
权重格式MLX 1-bit g128
部署大小1.28 GB(比FP16小12.8倍)
1-bit覆盖范围嵌入层、注意力投影、MLP投影、语言模型头
许可证Apache 2.0

量化格式:1-bit g128

每个权重为单个比特:0 映射为 −scale,1 映射为 +scale。每128个权重组成的组共享一个FP16比例因子。

MLX的量化格式通常每组存储一个比例因子和一个偏置:w = mlx_scale * bit + mlx_bias。为将我们仅含比例因子的1-bit权重打包到此格式中:

mlx_scale = 2 * original_scale
mlx_bias  = −original_scale

当 bit=0 时,这会重构 -scale;当 bit=1 时,则重构 +scale。由于 MLX 每个组存储两个 FP16 值(scale + bias)而非一个,因此每权重的有效位数略高于 GGUF 格式:

  • MLX 1-bit g128:1.25 bpw(1 个符号位 + 两个 16 位值分摊到 128 个权重上)
  • GGUF Q1_0_g128:1.125 bpw(1 个符号位 + 一个 16 位 scale 分摊到 128 个权重上)

内存需求

仅参数内存(加载到内存中的权重和 scale):

格式大小缩减比例压缩比
FP1616.38 GB—1.0x
MLX 1-bit g1281.28 GB92.2%12.8x
GGUF Q1_0_g1281.15 GB93.0%14.2x

磁盘上的模型目录约为 1.30 GB(大了约 16 MB),因为除了权重外,它还包含分词器、配置文件和其他元数据文件。

最佳实践

生成参数

参数默认值建议范围
Temperature0.50.5 -- 0.7
Top-k2020 -- 40
Top-p0.90.85 -- 0.95
Repetition penalty1.0
Presence penalty0.0

系统提示词

您可以使用简单的系统提示词,例如:

You are a helpful assistant

快速入门

MLX(Python)

需要 PrismML 分支的 MLX,该分支支持 1 位内核(上游 PR 待处理):

pip install mlx-lm
pip install mlx @ git+https://github.com/PrismML-Eng/mlx.git@prism
from mlx_lm import load, generate

model, tokenizer = load("prism-ml/Bonsai-8B-mlx-1bit")

response = generate(
    model,
    tokenizer,
    prompt="Explain quantum computing in simple terms.",
    max_tokens=256,
)
print(response)

MLX Swift(iOS / macOS)

1-bit Bonsai 8B 通过 MLX Swift 在 iPhone 和 iPad 上原生运行,在 iPhone 17 Pro Max 上的速度可达 44 令牌/秒。需使用我们的 mlx-swift 分支(含 1-bit 内核)(上游 PR 待处理)。

吞吐量(MLX / Apple Silicon)

平台后端TG128(令牌/秒)FP16 TG(令牌/秒)TG 对比 FP16PP512(令牌/秒)FP16 PP512(令牌/秒)
M4 Pro 48 GBMLX(Python)131168.4 倍472434
M4 Pro 48 GBllama.cpp Metal85165.4 倍498490

iPhone 17 Pro Max(MLX Swift)

FP16 无法在设备上运行;基准为 4-bit。

1-bit(令牌/秒)4-bit(令牌/秒)1-bit 对比 4-bit
令牌生成44143.1 倍
提示处理3773481.08 倍

Cross-platform throughput

能效

平台Bonsai E_tg(毫瓦时/令牌)基准 E_tg优势
Mac M4 Pro(MLX)0.0740.415(FP16)5.6 倍
Mac M4 Pro(Metal)0.0910.471(FP16)5.1 倍
iPhone 17 Pro Max~0.068~0.143(4-bit)2.1 倍(对比 4-bit)

瞬时功耗较高并不妨碍能耗降低——令牌生成速度显著提升,使得每输出令牌能耗降低 4-6 倍。

Energy efficiency

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估,基础设施、生成参数和评分标准保持一致。所有模型均为 6B–9B 参数范围。

模型公司大小平均分MMLU-RMuSRGSM8KHE+IFEvalBFCL
Qwen 3 8BAlibaba16 GB79.383559382.384.281
RNJ 8BEssentialAI16 GB73.175.550.493.784.273.861.1
Mistral3 8BMistral16 GB71.073.953.887.267.475.445.4
Olmo 3 7BAllen Inst14 GB70.97256.192.579.337.138.4
1-bit Bonsai 8BPrismML1.15 GB70.565.7508873.879.865.7
LFM2 8BLiquidAI16 GB69.672.749.590.18182.262.0
Llama 3.1 8BMeta16 GB67.172.951.387.97551.5—
GLM v6 9BZhipuAI16 GB65.761.943.293.478.769.321.9
Hermes 8BNous Research16 GB65.467.452.282.951.26573.5
Trinity Nano 6BArcee12 GB61.268.852.681.1545062.5
Marin 8BStanford CRFM16 GB56.664.842.686.45150—
R1-D 7BDeepSeek14 GB55.162.529.192.781.748.815.4

尽管体积仅为 1/14,1-bit Bonsai 8B 仍可与领先的全精度 8B 指令模型相媲美。

智能密度

智能密度体现了模型能力与其部署规模之间的比率:

alpha = -ln(1 - score/100) / size_GB
模型大小智能密度(1/GB)
1-bit Bonsai 8B1.15 GB1.062
Qwen 3 8B16 GB0.098
Llama 3.1 8B16 GB0.074
Mistral3 8B16 GB0.077

Bonsai 8B 的智能密度比全精度 Qwen 3 8B 高出 10.8 倍。

Intelligence density

应用场景

  • 设备端助手:在 Mac、iPhone 和 iPad 上实现低延迟、高隐私的交互式 AI
  • 移动部署:内存占用低,可在多种手机上运行
  • 边缘机器人与自主系统:在有散热、内存或连接限制的设备上实现紧凑部署
  • 成本敏感型 GPU 服务:在通用 GPU 部署中实现更高吞吐量和更低每 token 能耗
  • 企业级与私有推理:满足数据驻留要求的本地或受控环境推理

局限性

  • 目前尚无原生 1 位硬件——当前性能提升源于通用硬件上的软件内核优化
  • 移动设备功耗测量为估算值(基于 Xcode 功耗分析器),非硬件计量结果
  • 全精度基准领域持续发展;1 位方法与架构无关,未来将应用于更新的基础模型

引用

如果您使用 1-bit Bonsai 8B,请引用:

@techreport{bonsai8b,
    title   = {1-bit Bonsai 8B: End-to-End 1-bit Language Model Deployment
               Across Apple, GPU, and Mobile Runtimes},
    author  = {Prism ML},
    year    = {2026},
    month   = {March},
    url     = {https://prismml.com}
}

联系方式

如遇问题、反馈或合作咨询,请联系:contact@prismml.com