Prism ML 官网 | 白皮书 | 演示与示例 | Colab 笔记本 | Discord
面向 llama.cpp 的端到端 1 位语言模型(支持 CUDA、Metal、CPU)
比 FP16 小 14.1 倍 | 在 RTX 4090 上快 6.2 倍 | 每 token 能耗降低 4-5 倍
| 项目 | 规格 |
|---|---|
| 参数数量 | 8.19B(约6.95B非嵌入参数) |
| 架构 | Qwen3-8B 密集型:GQA(32个查询头 / 8个键值头)、SwiGLU MLP、RoPE、RMSNorm |
| 层数 | 36个Transformer解码器块 |
| 上下文长度 | 65,536个token |
| 词汇表大小 | 151,936 |
| 权重格式 | GGUF Q1_0 |
| 部署大小 | 1.15 GB(比FP16小14.2倍) |
| 1位覆盖范围 | 嵌入层、注意力投影层、MLP投影层、语言模型头 |
| 许可证 | Apache 2.0 |
每个权重为单个位:0 映射到 −scale,1 映射到 +scale。每128个权重共享一个FP16比例因子。
每权重有效位数:1.125(1个符号位 + 16位比例因子分摊到128个权重)。
仅参数内存(加载到内存中的权重和比例因子):
| 格式 | 大小 | 缩减比例 | 压缩比 |
|---|---|---|---|
| FP16 | 16.38 GB | — | 1.0x |
| **GGUF Q1_0 ** | 1.15 GB | 93.0% | 14.2x |
| MLX 1-bit g128 | 1.28 GB | 92.2% | 12.8x |
磁盘上的GGUF文件为1.16 GB(约大6.6 MB),因为该格式将分词器、对话模板和模型元数据与权重一起嵌入。
| 参数 | 默认值 | 建议范围 |
|---|---|---|
| Temperature(温度) | 0.5 | 0.5 -- 0.7 |
| Top-k | 20 | 20 -- 40 |
| Top-p | 0.9 | 0.85 -- 0.95 |
| Repetition penalty(重复惩罚) | 1.0 | |
| Presence penalty(存在惩罚) | 0.0 |
您可以使用简单的系统提示词,例如:
You are a helpful assistant# Clone the PrismML fork of llama.cpp (includes Q1_0 kernels)
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
# Build with CUDA support
cmake -B build -DGGML_CUDA=ON && cmake --build build -j
# Run inference
./build/bin/llama-cli \
-m Bonsai-8B-Q1_0.gguf \
-p "Explain quantum computing in simple terms." \
-n 256 \
--temp 0.5 \
--top-p 0.85 \
--top-k 20 \
-ngl 99# Clone the PrismML fork of llama.cpp (includes Q1_0 kernels)
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp
# Build with Metal support (default on macOS)
cmake -B build && cmake --build build -j
# Run inference
./build/bin/llama-cli \
-m Bonsai-8B-Q1_0.gguf \
-p "Explain quantum computing in simple terms." \
-n 256 \
--temp 0.5 \
--top-p 0.85 \
--top-k 20 \
-ngl 99./build/bin/llama-server \
-m Bonsai-8B-Q1_0.gguf \
--host 0.0.0.0 \
--port 8080 \
-ngl 99在 http://127.0.0.1:8080 打开 Web UI,或查看我们的 llama.cpp 分支 获取更多示例。
| 平台 | 后端 | TG128(令牌/秒) | FP16 TG(令牌/秒) | TG 与 FP16 对比 | PP512(令牌/秒) | FP16 PP512(令牌/秒) |
|---|---|---|---|---|---|---|
| RTX 4090 | llama.cpp CUDA | 368 | 59 | 6.2 倍 | 11,809 | 10,453 |
| RTX L40S | llama.cpp CUDA | 327 | 52 | 6.3 倍 | 9,592 | 8,325 |
| RTX 3060 笔记本电脑 | llama.cpp CUDA | 81 | 3.5¹ | 23 倍¹ | 1,871 | 94¹ |
| M4 Pro 48 GB | llama.cpp Metal | 85 | 16 | 5.4 倍 | 498 | 490 |
| Samsung S25 Ultra | llama.cpp OpenCL | 19.6 | — | — | 30.4 | — |
¹ FP16 仅部分能放入 GPU 的 6 GB 显存;1 位则完全能放入显存。
| 平台 | Bonsai E_tg(毫瓦时/令牌) | 基准 E_tg | 优势 |
|---|---|---|---|
| RTX 4090 (CUDA) | 0.276 | 1.134 (FP16) | 4.1 倍 |
| Mac M4 Pro (Metal) | 0.091 | 0.471 (FP16) | 5.1 倍 |
在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估,基础设施、生成参数和评分均保持一致。所有模型的参数范围均在 60 亿至 90 亿之间。
| 模型 | 公司 | 大小 | 平均值 | MMLU-R | MuSR | GSM8K | HE+ | IFEval | BFCL |
|---|---|---|---|---|---|---|---|---|---|
| Qwen 3 8B | Alibaba | 16 GB | 79.3 | 83 | 55 | 93 | 82.3 | 84.2 | 81 |
| RNJ 8B | EssentialAI | 16 GB | 73.1 | 75.5 | 50.4 | 93.7 | 84.2 | 73.8 | 61.1 |
| Mistral3 8B | Mistral | 16 GB | 71.0 | 73.9 | 53.8 | 87.2 | 67.4 | 75.4 | 45.4 |
| Olmo 3 7B | Allen Inst | 14 GB | 70.9 | 72 | 56.1 | 92.5 | 79.3 | 37.1 | 38.4 |
| 1-bit Bonsai 8B | PrismML | 1.15 GB | 70.5 | 65.7 | 50 | 88 | 73.8 | 79.8 | 65.7 |
| LFM2 8B | LiquidAI | 16 GB | 69.6 | 72.7 | 49.5 | 90.1 | 81 | 82.2 | 62.0 |
| Llama 3.1 8B | Meta | 16 GB | 67.1 | 72.9 | 51.3 | 87.9 | 75 | 51.5 | — |
| GLM v6 9B | ZhipuAI | 16 GB | 65.7 | 61.9 | 43.2 | 93.4 | 78.7 | 69.3 | 21.9 |
| Hermes 8B | Nous Research | 16 GB | 65.4 | 67.4 | 52.2 | 82.9 | 51.2 | 65 | 73.5 |
| Trinity Nano 6B | Arcee | 12 GB | 61.2 | 68.8 | 52.6 | 81.1 | 54 | 50 | 62.5 |
| Marin 8B | Stanford CRFM | 16 GB | 56.6 | 64.8 | 42.6 | 86.4 | 51 | 50 | — |
| R1-D 7B | DeepSeek | 14 GB | 55.1 | 62.5 | 29.1 | 92.7 | 81.7 | 48.8 | 15.4 |
尽管体积仅为 1/14,1-bit Bonsai 8B 仍可与领先的全精度 8B 指令模型相媲美。
智能密度体现了模型能力与其部署规模之间的比例:
alpha = -ln(1 - score/100) / size_GB| 模型 | 大小 | 智能密度 (1/GB) |
|---|---|---|
| 1-bit Bonsai 8B | 1.15 GB | 1.062 |
| Qwen 3 8B | 16 GB | 0.098 |
| Llama 3.1 8B | 16 GB | 0.074 |
| Mistral3 8B | 16 GB | 0.077 |
Bonsai 8B 的智能密度比全精度 Qwen 3 8B 高出 10.8 倍。
如果您使用 1-bit Bonsai 8B,请引用:
@techreport{bonsai8b,
title = {1-bit Bonsai 8B: End-to-End 1-bit Language Model Deployment
Across Apple, GPU, and Mobile Runtimes},
author = {Prism ML},
year = {2026},
month = {March},
url = {https://prismml.com}
}如您有任何问题、反馈或合作意向,请联系:contact@prismml.com