🤗 Hugging Face | 🕹️ Demo 🤖 ModelScope |
🖥️ Official Website | Github
混元翻译模型1.5版本包含1.8B翻译模型HY-MT1.5-1.8B和7B翻译模型HY-MT1.5-7B。两款模型均专注于支持33种语言的互译,并涵盖5种民族语言及方言变体。其中,HY-MT1.5-7B是我们WMT25冠军模型的升级版,针对阐释性翻译和混合语言场景进行了优化,新增支持术语干预、语境翻译和格式翻译功能。HY-MT1.5-1.8B的参数量虽不足HY-MT1.5-7B的三分之一,却能达到与其相近的翻译性能,实现了高速与高质量的平衡。经过量化处理后,1.8B模型可部署于边缘设备,支持实时翻译场景,适用性广泛。
| 模型名称 | 说明 | 下载 |
|---|---|---|
| HY-MT1.5-1.8B | 混元1.8B翻译模型 | 🤗 模型 |
| HY-MT1.5-1.8B-FP8 | 混元1.8B翻译模型,fp8量化版本 | 🤗 模型 |
| HY-MT1.5-1.8B-GPTQ-Int4 | 混元1.8B翻译模型,int4量化版本 | 🤗 模型 |
| HY-MT1.5-7B | 混元7B翻译模型 | 🤗 模型 |
| HY-MT1.5-7B-FP8 | 混元7B翻译模型,fp8量化版本 | 🤗 模型 |
| HY-MT1.5-7B-GPTQ-Int4 | 混元7B翻译模型,int4量化版本 | 🤗 模型 |
将以下文本翻译为{target_language},注意只需要输出翻译后的结果,不要额外解释:
{source_text}Translate the following segment into {target_language}, without additional explanation.
{source_text}参考下面的翻译:
{source_term} 翻译成 {target_term}
将以下文本翻译为{target_language},注意只需要输出翻译后的结果,不要额外解释:
{source_text}{context}
参考上面的信息,把下面的文本翻译成{target_language},注意不需要翻译上文,也不要额外解释:
{source_text}
将以下<source></source>之间的文本翻译为中文,注意只需要输出翻译后的结果,不要额外解释,原文中的<sn></sn>标签表示标签内文本包含格式信息,需要在译文中相应的位置尽量保留该标签。输出格式为:<target>str</target>
<source>{src_text_with_format}</source>
首先,请安装 transformers,推荐使用 v4.56.0 版本。
pip install transformers==4.56.0!!! 若要使用 transformers 加载 fp8 模型,需将 config.json 中的名称“ignored_layers”更改为“ignore”,并将 compressed-tensors 升级至 compressed-tensors-0.11.0 版本。
以下代码片段展示了如何使用 transformers 库加载和应用模型。
我们以 tencent/HY-MT1.5-1.8B 为例
from transformers import AutoModelForCausalLM, AutoTokenizer
import os
model_name_or_path = "tencent/HY-MT1.5-1.8B"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto") # You may want to use bfloat16 and/or move to GPU here
messages = [
{"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nIt’s on the house."},
]
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=False,
return_tensors="pt"
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])我们建议在推理时使用以下参数集。请注意,我们的模型没有默认的 system_prompt。
{
"top_k": 20,
"top_p": 0.6,
"repetition_penalty": 1.05,
"temperature": 0.7
}支持语言:
| 语言 | 缩写 | 中文名称 |
|---|---|---|
| Chinese | zh | 中文 |
| English | en | 英语 |
| French | fr | 法语 |
| Portuguese | pt | 葡萄牙语 |
| Spanish | es | 西班牙语 |
| Japanese | ja | 日语 |
| Turkish | tr | 土耳其语 |
| Russian | ru | 俄语 |
| Arabic | ar | 阿拉伯语 |
| Korean | ko | 韩语 |
| Thai | th | 泰语 |
| Italian | it | 意大利语 |
| German | de | 德语 |
| Vietnamese | vi | 越南语 |
| Malay | ms | 马来语 |
| Indonesian | id | 印尼语 |
| Filipino | tl | 菲律宾语 |
| Hindi | hi | 印地语 |
| Traditional Chinese | zh-Hant | 繁体中文 |
| Polish | pl | 波兰语 |
| Czech | cs | 捷克语 |
| Dutch | nl | 荷兰语 |
| Khmer | km | 高棉语 |
| Burmese | my | 缅甸语 |
| Persian | fa | 波斯语 |
| Gujarati | gu | 古吉拉特语 |
| Urdu | ur | 乌尔都语 |
| Telugu | te | 泰卢固语 |
| Marathi | mr | 马拉地语 |
| Hebrew | he | 希伯来语 |
| Bengali | bn | 孟加拉语 |
| Tamil | ta | 泰米尔语 |
| Ukrainian | uk | 乌克兰语 |
| Tibetan | bo | 藏语 |
| Kazakh | kk | 哈萨克语 |
| Mongolian | mn | 蒙古语 |
| Uyghur | ug | 维吾尔语 |
| Cantonese | yue | 粤语 |
引用 HY-MT1.5:
@misc{hy-mt1.5,
title={HY-MT1.5 Technical Report},
author={Mao Zheng and Zheng Li and Tao Chen and Mingyang Song and Di Wang},
year={2025},
eprint={2512.24092},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2512.24092},
}