📣 GGUF |
✒️ Sherry 论文 (ACL 2026) |
📖 文档 |
🤗 AngelSlim |
💬 微信
Hy-MT1.5-1.8B 翻译质量分数。来源:HY-MT1.5 技术报告
如需更详细的信息,请参考 [AngelSlim] 和 [HY-MT]
世界级翻译质量 Hy-MT1.5-1.8B-1.25bit 基于 Hy-MT1.5-1.8B 基础模型构建,该模型是腾讯混元团队通过整合面向机器翻译的预训练、有监督微调、策略蒸馏和强化学习的多阶段整体训练流程开发的专业翻译模型。基础模型原生支持 33种语言、5种方言/少数民族语言 以及 1056个翻译方向。尽管仅拥有18亿参数,其综合性能全面超越了规模大得多的开源模型(如 Tower-Plus-72B、Qwen3-32B)和主流商业翻译 API(如 Microsoft Translator、豆包翻译)。详细信息请参考 HY-MT1.5-1.8B 和 HY-MT1.5 技术报告。
Sherry:极致1.25比特量化 本模型采用了 Sherry(已被 ACL 2026 接收)这一硬件高效的三元量化框架。Sherry 引入了 3:4细粒度稀疏策略:每4个模型权重中,3个最重要的权重以1比特({-1, +1})存储,剩余1个权重置零。这使得4个权重仅需5比特即可存储,实现了具有2的幂次对齐的有效 1.25比特 宽度,将原本3.3GB的FP16模型压缩至仅 440MB,且精度损失极小。
Sherry细粒度稀疏:每4个权重中,3个最重要的权重以1比特存储,剩余1个权重置零。
不同模型尺寸在Flores-200中外互译基准测试上的性能对比:
不同模型尺寸在Flores-200中外互译基准测试上的性能表现。
FP16(8倍速)与1.25-bit速度对比。演示设备:骁龙888,8GB内存:
演示设备:骁龙888,8GB内存。
我们提供了一个即用型Android离线翻译演示应用。该演示应用具备后台取词模式,可在手机上的任何应用中运行——浏览邮件、网页或聊天消息时,无需切换应用即可获得即时翻译。无需网络,不收集数据,一次下载永久使用。
下载演示应用:
https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
演示设备:骁龙865,8GB内存。
演示设备:骁龙7+ Gen 2,16GB内存。
git clone https://github.com/ggml-org/llama.cpp.gitcd llama.cppgit fetch origin pull/22836/head:pr-22836-stq_0
git checkout pr-22836-stq_0pip install -r requirements.txt
cmake -B build
cmake --build build --config Releasepip install huggingface_hub
huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit \
--local-dir model_zoo/Hy-MT1.5-1.8B-1.25bitpython convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit \
--outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
--outtype bf16./build/bin/llama-quantize \
model_zoo/Hy-MT1.5-1.8B-bf16.gguf \
model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
STQ1_0提示词格式可查看 HY-MT1.5-1.8B
./build/bin/llama-completion \
--model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf \
-p "Translate the following segment into Chinese, without additional explanation. Hello " \
--jinja \
-ngl 0 \
-n 64 -st./build/bin/llama-bench -m model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf -ngl 0本项目的代码基于 AngelSlim 许可证 开源。
@misc{huang2026sherry,
title={Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification},
author={Hong Huang and Decheng Wu and Qiangqiang Hu and Guanghua Yu and Jinhai Yang and Jianchen Zhu and Xue Liu and Dapeng Wu},
year={2026},
eprint={2601.07892},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2601.07892},
}
@article{angelslim2026,
title={AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression},
author={Hunyuan AI Infra Team},
journal={arXiv preprint arXiv:2602.21233},
year={2026}
}
@misc{zheng2025hymt,
title={HY-MT1.5 Technical Report},
author={Mao Zheng and Zheng Li and Tao Chen and Mingyang Song and Di Wang},
year={2025},
eprint={2512.24092},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2512.24092},
}