Hy-MT1.5-1.8B-1.25bit:可实现手机端高质量离线翻译，支持33种语言及1056个翻译方向。采用Sherry量化算法，仅440MB大小，搭配定制STQ内核，普通手机也能流畅运行，翻译质量优于主流商业API。【此简介由AI生成】

tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit

AngelSlim

致力于打造更直观、全面且高效的大语言模型压缩工具包。

📣 GGUF | ✒️ Sherry 论文 (ACL 2026) | 📖 文档 | 🤗 AngelSlim | 💬 微信

model_scores
Hy-MT1.5-1.8B 翻译质量分数。来源：HY-MT1.5 技术报告

📣 最新动态

[26/05/08] 我们已发布适用于 1.25 位模型的 STQ1_0 内核，并向 llama.cpp 提交了 PR PR #22836！如果您对 STQ_0 有任何疑问或建议，欢迎在 PR 下评论！🔥🔥🔥
[26/04/29] 我们发布了 Hy-MT1.5-1.8B-2bit (574MB) 和 Hy-MT1.5-1.8B-1.25bit (440MB)，这是支持 33 种语言的端侧翻译模型，提供权重和 GGUF 两种格式。
[26/02/09] 我们发布了 HY-1.8B-2Bit，这是一款 2 位端侧大语言模型。
[26/01/13] 我们发布了 v0.3 版本。我们支持 Eagle3 在全尺度 LLMs/VLMs/音频模型上的训练与部署。此外，我们还发布了 Sherry，这是一种硬件高效的 1.25 位量化算法 [论文] | [代码]

如需更详细的信息，请参考 [AngelSlim] 和 [HY-MT]

🌟 Hy-MT1.5-1.8B-1.25bit 核心特性

世界级翻译质量 Hy-MT1.5-1.8B-1.25bit 基于 Hy-MT1.5-1.8B 基础模型构建，该模型是腾讯混元团队通过整合面向机器翻译的预训练、有监督微调、策略蒸馏和强化学习的多阶段整体训练流程开发的专业翻译模型。基础模型原生支持 33种语言、5种方言/少数民族语言 以及 1056个翻译方向。尽管仅拥有18亿参数，其综合性能全面超越了规模大得多的开源模型（如 Tower-Plus-72B、Qwen3-32B）和主流商业翻译 API（如 Microsoft Translator、豆包翻译）。详细信息请参考 HY-MT1.5-1.8B 和 HY-MT1.5 技术报告。
Sherry：极致1.25比特量化 本模型采用了 Sherry（已被 ACL 2026 接收）这一硬件高效的三元量化框架。Sherry 引入了 3:4细粒度稀疏策略：每4个模型权重中，3个最重要的权重以1比特（{-1, +1}）存储，剩余1个权重置零。这使得4个权重仅需5比特即可存储，实现了具有2的幂次对齐的有效 1.25比特 宽度，将原本3.3GB的FP16模型压缩至仅 440MB，且精度损失极小。

Sherry
Sherry细粒度稀疏：每4个权重中，3个最重要的权重以1比特存储，剩余1个权重置零。

适配多数手机的端侧部署 配合我们专为移动CPU设计的定制 STQ内核，1.25比特模型实现了完美的SIMD指令集对齐。这意味着即使是内存有限的普通手机，也能流畅运行高质量的离线翻译。无需网络连接，您的数据也不会离开设备。

📈 翻译基准测试

不同模型尺寸在Flores-200中外互译基准测试上的性能对比：

flores_model_size
不同模型尺寸在Flores-200中外互译基准测试上的性能表现。

⚡ 速度演示

FP16（8倍速）与1.25-bit速度对比。演示设备：骁龙888，8GB内存：

fp16_vs_1.25bit
演示设备：骁龙888，8GB内存。

📱 演示

我们提供了一个即用型Android离线翻译演示应用。该演示应用具备后台取词模式，可在手机上的任何应用中运行——浏览邮件、网页或聊天消息时，无需切换应用即可获得即时翻译。无需网络，不收集数据，一次下载永久使用。

下载演示应用：

https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

翻译演示

app_demo
演示设备：骁龙865，8GB内存。

后台取词模式

demo2
演示设备：骁龙7+ Gen 2，16GB内存。

❕ 使用方法

克隆llama.cpp

git clone https://github.com/ggml-org/llama.cpp.git

进入 llama.cpp 文件夹

cd llama.cpp

获取并检出 PR 分支

git fetch origin pull/22836/head:pr-22836-stq_0
git checkout pr-22836-stq_0

构建 llama.cpp

pip install -r requirements.txt
cmake -B build
cmake --build build --config Release

下载 HF 模型

pip install huggingface_hub
huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \
    --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit

将 HF 转换为 bf16 GGUF

python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \
    --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
    --outtype bf16

将 bf16 量化为 STQ1_0

./build/bin/llama-quantize \
    model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
    model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
    STQ1_0

运行补全示例

提示词格式可查看 HY-MT1.5-1.8B

./build/bin/llama-completion \
  --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
  -p "Translate the following segment into Chinese, without additional explanation. Hello " \
  --jinja \
  -ngl 0 \
  -n 64 -st

运行 llama.cpp 基准测试

./build/bin/llama-bench -m model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf -ngl 0

📥 下载链接

1.25-bit 模型权重：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
1.25-bit 模型 GGUF：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF
2-bit 模型权重：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit
2-bit 模型 GGUF：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit-GGUF
演示程序：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk

📄 技术报告

HY-MT1.5 技术报告：https://arxiv.org/abs/2512.24092
Sherry 论文（ACL 2026）：https://arxiv.org/abs/2601.07892
AngelSlim 技术报告：https://arxiv.org/abs/2602.21233

📝 许可证

本项目的代码基于 AngelSlim 许可证开源。

🔗 引用

@misc{huang2026sherry,
      title={Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification}, 
      author={Hong Huang and Decheng Wu and Qiangqiang Hu and Guanghua Yu and Jinhai Yang and Jianchen Zhu and Xue Liu and Dapeng Wu},
      year={2026},
      eprint={2601.07892},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2601.07892}, 
}

@article{angelslim2026,
  title={AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression},
  author={Hunyuan AI Infra Team},
  journal={arXiv preprint arXiv:2602.21233},
  year={2026}
}

@misc{zheng2025hymt,
      title={HY-MT1.5 Technical Report}, 
      author={Mao Zheng and Zheng Li and Tao Chen and Mingyang Song and Di Wang},
      year={2025},
      eprint={2512.24092},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2512.24092}, 
}

💬 技术讨论

AngelSlim 正在持续迭代，新功能即将发布。如果您有任何问题或建议，请在 GitHub Issues 上提交 issue，或加入我们的微信讨论群。