适用于 Apple Silicon 的更快、更智能、无审查版 Gemma 4 26B。
这是纯文本旗舰模型,其核心权衡一目了然:
Gemma 4 26B IT 更智能如果您需要的是快速版本而非多模态版本,这就是您要运行的模型。
| 指标 | Gemma 4 26B IT 原版 4bit | SuperGemma Fast |
|---|---|---|
| Quick bench 总体得分 | 91.4 | 95.8 |
| 平均生成速度 | 42.5 tok/s | 46.2 tok/s |
| 总体得分差异 | 基准 | +4.4 |
| 速度差异 | 基准 | +8.7% |
| 类别 | 原版 | SuperGemma Fast | 差异 |
|---|---|---|---|
| 代码 | 92.3 | 98.6 | +6.3 |
| 浏览器 | 87.5 | 89.6 | +2.1 |
| 逻辑 | 86.9 | 95.2 | +8.3 |
| 系统设计 | 97.8 | 98.9 | +1.1 |
| 韩语 | 90.7 | 95.0 | +4.3 |
13GB95.8 对比 91.446.2 令牌/秒 对比 42.5 令牌/秒+6.3+8.3+4.3+2.1mlx_lm.server \
--model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 \
--port 8080若要实现 OpenAI 兼容的服务,请让 mlx_lm.server 自动检测捆绑的模板。
在需要模板内容的启动路径上,请勿将 --chat-template /path/to/chat_template.jinja 作为文字路径字符串传递。这可能会损坏响应。
mlx_lm.generate \
--model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 \
--prompt "Write a Python function that returns prime numbers up to n." \
--max-tokens 512benchmark_quick_bench_20260412.jsonbenchmark_quick_bench_20260412_responses.jsonlSERVING_NOTES.md