openai/gpt-oss-20b 的 TurboQuant 3-bit MLX 量化版本——由 TurboQuant-MLX 生成。
GPT-OSS-20B 是一个拥有 210 亿参数的混合专家模型(Mixture-of-Experts),包含 32 个专家,每个 token 约有 36 亿活跃参数。经过 TurboQuant 3-bit 压缩后,它可以轻松在 16 GB 苹果硅 Mac 上运行,并支持完整的 131K token 上下文——叠加 v0.2 版 KV 缓存压缩后,缓存大小也能缩减 4 倍。
group_size=64pip install "turboquant-mlx-full>=0.2.0" "mlx-lm>=0.31.3"GPT-OSS-20B 是一个小于 250 亿参数的模型,这意味着它正处于多步推理能力的边缘。与更大模型相比,此处的采样器选择更为重要:
| 使用场景 | 推荐采样器 |
|---|---|
| 日常聊天 / 创意写作 / 问答 | --temp 0.7 --rep-penalty 1.1 |
| 数学、代码、多步推理 | --temp 0.3 --rep-penalty 1.1 |
在温度为 0.7 时,模型偶尔会在解决文字题时中途放弃,或者写出看似合理但存在逻辑错误的代码。将温度降至 0.3 可以稳定推理过程,并为数学和代码生成正确的解决方案框架。
使用 scripts/stress_hybrid_sampler.py 在 64 GB M 系列 Mac 上进行测试(峰值内存与 16 GB 目标匹配):
| # | 测试 | 结果(推荐采样器) |
|---|---|---|
| 01 | 长文章(1500 字关于罗马帝国,最大令牌数 3500) | 内容流畅,无尾部退化 |
| 02 | 数学题(两列火车,相遇时间 + 距离,最大令牌数 800) | 使用 --temp 0.3 时结果正确(列出方程 60t + 75(t-0.5) = 215,解得 t≈1.87 小时 → 上午 10:52);温度 0.7 时结果不稳定 |
| 03 | 代码(merge_intervals 函数 + 3 个单元测试,最大令牌数 1500) | 使用 --temp 0.3 时函数逻辑正确;偶尔会出现测试断言值幻觉(函数本身可用,需修正测试用例) |
| 04 | 找关键词(在大量文本中找 FUCHSIA-7741,最大令牌数 200) | 密码被完整准确提取 |
| 05 | 格式(5 项列表,每行不超过 15 个单词,最大令牌数 1500) | 恰好生成 5 行简短编号列表,无额外注释 |
| 06 | 重复陷阱(以“sky-blue thorough”开头,最大令牌数 4096) | 回答内容流畅,无段落循环 |
所有 6 项测试的解码速度:46–94 令牌/秒。峰值内存:11.0–11.2 GB。
hf download manjunathshiva/gpt-oss-20b-tq3 \
--local-dir ~/models/gpt-oss-20b-tq3turboquant-generate \
--model ~/models/gpt-oss-20b-tq3 \
--prompt "Why is the sky blue? Explain in detail." \
--max-tokens 1024 --temp 0.7 --rep-penalty 1.1turboquant-generate \
--model ~/models/gpt-oss-20b-tq3 \
--prompt "Solve this multi-step word problem..." \
--max-tokens 1024 --temp 0.3 --rep-penalty 1.1对于长上下文生成,可在基础上叠加 v0.2 版本的 KV 缓存压缩。当叠加在 TurboQuant 量化权重上时,必须使用 K8/V3 混合精度—— 对称的 K3 会加剧噪声,导致超过约 800 个 token 后长文本输出出现问题。128 token 的 fp16 汇聚区可保护提示词开头的注意力汇聚点。
turboquant-generate \
--model ~/models/gpt-oss-20b-tq3 \
--prompt "Why is the sky blue? Explain in detail." \
--max-tokens 1024 --temp 0.7 --rep-penalty 1.1 \
--kv-k-bits 8 --kv-v-bits 3 --kv-min-tokens 128Apache-2.0(继承自基础模型)。
基于 TurboQuant-MLX 构建。有关相关技术原理(Hadamard 旋转 + Lloyd-Max 码本实现无数据量化),请参见 Zandieh et al., 2025 — TurboQuant: Online Vector Quantization with Optimal Distortion-Rate Trade-off。