Prism ML 官网 | 白皮书 | 演示与示例 | Colab 笔记本 | Discord
适用于 Apple Silicon 的端到端 1 位语言模型
比 FP16 小 12.8 倍 | 在 M4 Pro 上快 8.4 倍 | 在 iPhone 上达 44 令牌/秒 | 可在 Mac、iPhone、iPad 上运行
| 项目 | 规格说明 |
|---|---|
| 参数 | 8.19B(约6.95B非嵌入参数) |
| 架构 | Qwen3-8B 密集型:GQA(32个查询头 / 8个键值头)、SwiGLU MLP、RoPE、RMSNorm |
| 层数 | 36个Transformer解码器块 |
| 上下文长度 | 65,536个token |
| 词汇表大小 | 151,936 |
| 权重格式 | MLX 1-bit g128 |
| 部署大小 | 1.28 GB(比FP16小12.8倍) |
| 1-bit覆盖范围 | 嵌入层、注意力投影、MLP投影、语言模型头 |
| 许可证 | Apache 2.0 |
每个权重为单个比特:0 映射为 −scale,1 映射为 +scale。每128个权重组成的组共享一个FP16比例因子。
MLX的量化格式通常每组存储一个比例因子和一个偏置:w = mlx_scale * bit + mlx_bias。为将我们仅含比例因子的1-bit权重打包到此格式中:
mlx_scale = 2 * original_scale
mlx_bias = −original_scale当 bit=0 时,这会重构 -scale;当 bit=1 时,则重构 +scale。由于 MLX 每个组存储两个 FP16 值(scale + bias)而非一个,因此每权重的有效位数略高于 GGUF 格式:
仅参数内存(加载到内存中的权重和 scale):
| 格式 | 大小 | 缩减比例 | 压缩比 |
|---|---|---|---|
| FP16 | 16.38 GB | — | 1.0x |
| MLX 1-bit g128 | 1.28 GB | 92.2% | 12.8x |
| GGUF Q1_0_g128 | 1.15 GB | 93.0% | 14.2x |
磁盘上的模型目录约为 1.30 GB(大了约 16 MB),因为除了权重外,它还包含分词器、配置文件和其他元数据文件。
| 参数 | 默认值 | 建议范围 |
|---|---|---|
| Temperature | 0.5 | 0.5 -- 0.7 |
| Top-k | 20 | 20 -- 40 |
| Top-p | 0.9 | 0.85 -- 0.95 |
| Repetition penalty | 1.0 | |
| Presence penalty | 0.0 |
您可以使用简单的系统提示词,例如:
You are a helpful assistant需要 PrismML 分支的 MLX,该分支支持 1 位内核(上游 PR 待处理):
pip install mlx-lm pip install mlx @ git+https://github.com/PrismML-Eng/mlx.git@prism
from mlx_lm import load, generate
model, tokenizer = load("prism-ml/Bonsai-8B-mlx-1bit")
response = generate(
model,
tokenizer,
prompt="Explain quantum computing in simple terms.",
max_tokens=256,
)
print(response)1-bit Bonsai 8B 通过 MLX Swift 在 iPhone 和 iPad 上原生运行,在 iPhone 17 Pro Max 上的速度可达 44 令牌/秒。需使用我们的 mlx-swift 分支(含 1-bit 内核)(上游 PR 待处理)。
| 平台 | 后端 | TG128(令牌/秒) | FP16 TG(令牌/秒) | TG 对比 FP16 | PP512(令牌/秒) | FP16 PP512(令牌/秒) |
|---|---|---|---|---|---|---|
| M4 Pro 48 GB | MLX(Python) | 131 | 16 | 8.4 倍 | 472 | 434 |
| M4 Pro 48 GB | llama.cpp Metal | 85 | 16 | 5.4 倍 | 498 | 490 |
FP16 无法在设备上运行;基准为 4-bit。
| 1-bit(令牌/秒) | 4-bit(令牌/秒) | 1-bit 对比 4-bit | |
|---|---|---|---|
| 令牌生成 | 44 | 14 | 3.1 倍 |
| 提示处理 | 377 | 348 | 1.08 倍 |
| 平台 | Bonsai E_tg(毫瓦时/令牌) | 基准 E_tg | 优势 |
|---|---|---|---|
| Mac M4 Pro(MLX) | 0.074 | 0.415(FP16) | 5.6 倍 |
| Mac M4 Pro(Metal) | 0.091 | 0.471(FP16) | 5.1 倍 |
| iPhone 17 Pro Max | ~0.068 | ~0.143(4-bit) | 2.1 倍(对比 4-bit) |
瞬时功耗较高并不妨碍能耗降低——令牌生成速度显著提升,使得每输出令牌能耗降低 4-6 倍。
在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估,基础设施、生成参数和评分标准保持一致。所有模型均为 6B–9B 参数范围。
| 模型 | 公司 | 大小 | 平均分 | MMLU-R | MuSR | GSM8K | HE+ | IFEval | BFCL |
|---|---|---|---|---|---|---|---|---|---|
| Qwen 3 8B | Alibaba | 16 GB | 79.3 | 83 | 55 | 93 | 82.3 | 84.2 | 81 |
| RNJ 8B | EssentialAI | 16 GB | 73.1 | 75.5 | 50.4 | 93.7 | 84.2 | 73.8 | 61.1 |
| Mistral3 8B | Mistral | 16 GB | 71.0 | 73.9 | 53.8 | 87.2 | 67.4 | 75.4 | 45.4 |
| Olmo 3 7B | Allen Inst | 14 GB | 70.9 | 72 | 56.1 | 92.5 | 79.3 | 37.1 | 38.4 |
| 1-bit Bonsai 8B | PrismML | 1.15 GB | 70.5 | 65.7 | 50 | 88 | 73.8 | 79.8 | 65.7 |
| LFM2 8B | LiquidAI | 16 GB | 69.6 | 72.7 | 49.5 | 90.1 | 81 | 82.2 | 62.0 |
| Llama 3.1 8B | Meta | 16 GB | 67.1 | 72.9 | 51.3 | 87.9 | 75 | 51.5 | — |
| GLM v6 9B | ZhipuAI | 16 GB | 65.7 | 61.9 | 43.2 | 93.4 | 78.7 | 69.3 | 21.9 |
| Hermes 8B | Nous Research | 16 GB | 65.4 | 67.4 | 52.2 | 82.9 | 51.2 | 65 | 73.5 |
| Trinity Nano 6B | Arcee | 12 GB | 61.2 | 68.8 | 52.6 | 81.1 | 54 | 50 | 62.5 |
| Marin 8B | Stanford CRFM | 16 GB | 56.6 | 64.8 | 42.6 | 86.4 | 51 | 50 | — |
| R1-D 7B | DeepSeek | 14 GB | 55.1 | 62.5 | 29.1 | 92.7 | 81.7 | 48.8 | 15.4 |
尽管体积仅为 1/14,1-bit Bonsai 8B 仍可与领先的全精度 8B 指令模型相媲美。
智能密度体现了模型能力与其部署规模之间的比率:
alpha = -ln(1 - score/100) / size_GB| 模型 | 大小 | 智能密度(1/GB) |
|---|---|---|
| 1-bit Bonsai 8B | 1.15 GB | 1.062 |
| Qwen 3 8B | 16 GB | 0.098 |
| Llama 3.1 8B | 16 GB | 0.074 |
| Mistral3 8B | 16 GB | 0.077 |
Bonsai 8B 的智能密度比全精度 Qwen 3 8B 高出 10.8 倍。
如果您使用 1-bit Bonsai 8B,请引用:
@techreport{bonsai8b,
title = {1-bit Bonsai 8B: End-to-End 1-bit Language Model Deployment
Across Apple, GPU, and Mobile Runtimes},
author = {Prism ML},
year = {2026},
month = {March},
url = {https://prismml.com}
}如遇问题、反馈或合作咨询,请联系:contact@prismml.com