冬

opus-mt-tr-en-ascend:可用于在华为 Ascend NPU 上实现土耳其语到英语的高效翻译，支持推理加速与精度验证。项目基于 MarianMT 架构，兼容 HuggingFace transformers，提供批量翻译功能，NPU 推理速度较 CPU 提升15.47倍且结果完全一致。【此简介由AI生成】 - AtomGit AI社区

opus-mt-tr-en Ascend NPU 部署指南

项目简介

opus-mt-tr-en 是 Helsinki-NLP 系列的多语言翻译模型，专门用于土耳其语(TR)到英语(EN)的翻译任务，采用 6层 Transformer 编码器 + 6层解码器架构，参数量约 73M。

特性

支持 Ascend NPU 推理加速
CPU vs NPU 精度对比测试 (输出完全一致)
土耳其语到英语翻译
兼容 HuggingFace transformers
支持批量翻译

环境要求

硬件: 华为 Ascend 910 系列 NPU
CANN: 8.0.RC1 或更高版本
PyTorch: 2.0+ with torch_npu
Docker: 容器名称 test-modelagent
transformers: 4.8+

目录结构

opus-mt-tr-en-ascend/
├── inference.py          # 推理测试脚本
├── log.txt               # 测试日志
├── README.md             # 本文档
├── test_sample.txt       # 测试样例
├── inference_result.json # 推理结果
└── precision_result.json # 精度测试结果

部署步骤

1. 进入容器

docker exec -it test-modelagent bash

2. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

3. 准备模型文件

模型文件位于 /data/ysws/agentsp/5-18/opus-mt-tr-en/Helsinki-NLP/opus-mt-tr-en 目录下：

pytorch_model.bin - PyTorch 模型权重
config.json - 模型配置
vocab.json - 词汇表
source.spm / target.spm - SentencePiece 模型
tokenizer_config.json - 分词器配置

4. 安装依赖

pip install transformers torch_npu -i https://huaweimirror.com.cn/simple

使用方式

方式一：普通推理模式

运行推理脚本进行翻译：

cd /data/ysws/agentsp/5-18/opus-mt-tr-en-ascend/

python3 inference.py

方式二：精度测试模式 (CPU vs NPU)

运行精度对比测试，验证 NPU 计算结果与 CPU 一致性：

cd /data/ysws/agentsp/5-18/opus-mt-tr-en-ascend/

python3 inference.py precision_test

测试验证

精度测试结果

指标	实测值	阈值	状态
翻译一致性	100%	100%	PASS
输出匹配	True	True	PASS

性能数据

操作	耗时
CPU 推理时间	1.950s
NPU 推理时间	0.126s
加速比	15.47x

推理结果示例

输入 (土耳其语)	输出 (英语)
"Merhaba, nasılsın bugün?"	"Hi, how are you today?"
"Seni görmek çok güzel."	"It's great to see you."
"Hava bugün güzel."	"The weather is nice today."

结果: CPU 和 NPU 输出的翻译结果完全一致

测试日志

============================================================
OPUS-MT-TR-EN NPU Test
Model: Helsinki-NLP/opus-mt-tr-en (TR → EN)
Output: /data/ysws/agentsp/5-18/opus-mt-tr-en-ascend
============================================================

============================================================
OPUS-MT-TR-EN Inference Test (NPU)
============================================================
Device: npu:0
Model: /data/ysws/agentsp/5-18/opus-mt-tr-en/Helsinki-NLP/opus-mt-tr-en

Loading tokenizer...
Loading model...
Loading weights: 100%|██████████| 258/258 [00:00<00:00, 13076.63it/s]

Input text: ['Merhaba, nasılsın bugün?']
Input shape: torch.Size([1, 6])
Generated text: ['Hi, how are you today?']
Inference time: 1.459s

============================================================
Precision Test (CPU vs NPU)
============================================================

Loading tokenizer...

Loading model on CPU...
Loading weights: 100%|██████████| 258/258 [00:00<00:00, 12629.61it/s]
Running inference on CPU...

Loading model on NPU...
Loading weights: 100%|██████████| 258/258 [00:00<00:00, 13064.00it/s]
Running inference on NPU...

CPU inference time: 1.950s
NPU inference time: 0.126s
Speedup: 15.47x
CPU output: ['Hi, how are you today?']
NPU output: ['Hi, how are you today?']
Output texts match: True
Status: PASS

============================================================
Test Complete!
============================================================

Python API 使用示例

基本翻译

import torch
from transformers import MarianMTModel, MarianTokenizer

MODEL_DIR = "/data/ysws/agentsp/5-18/opus-mt-tr-en/Helsinki-NLP/opus-mt-tr-en"

tokenizer = MarianTokenizer.from_pretrained(MODEL_DIR)
model = MarianMTModel.from_pretrained(MODEL_DIR)
model = model.to("npu:0")
model.eval()

src_texts = ["Merhaba, nasılsın bugün?"]
inputs = tokenizer(src_texts, return_tensors="pt", padding=True)
inputs = {k: v.to("npu:0") for k, v in inputs.items()}

with torch.no_grad():
    outputs = model.generate(inputs['input_ids'], max_new_tokens=50)

translations = tokenizer.batch_decode(outputs, skip_special_tokens=True)
print(translations)  # ['Hi, how are you today?']

批量翻译

src_texts = [
    "Merhaba, nasılsın bugün?",
    "Seni görmek çok güzel.",
    "Hava bugün güzel."
]

inputs = tokenizer(src_texts, return_tensors="pt", padding=True)
inputs = {k: v.to("npu:0") for k, v in inputs.items()}

with torch.no_grad():
    outputs = model.generate(inputs['input_ids'], max_new_tokens=50)

translations = tokenizer.batch_decode(outputs, skip_special_tokens=True)
for src, tgt in zip(src_texts, translations):
    print(f"{src} -> {tgt}")

模型结构

架构类型: MarianMT (transformer)
编码器: 6 层 Transformer
解码器: 6 层 Transformer
隐藏层维度: 512
注意力头数: 8
参数量: ~73M
词汇表大小: 58101

推理参数配置

从 config.json 提取的关键参数:

{
  "vocab_size": 58101,
  "d_model": 512,
  "encoder_layers": 6,
  "decoder_layers": 6,
  "encoder_attention_heads": 8,
  "decoder_attention_heads": 8,
  "encoder_ffn_dim": 2048,
  "decoder_ffn_dim": 2048
}

常见问题

Q: 精度测试失败?

A: 检查 NPU 驱动是否正确安装，确保 CANN 环境变量已 source。

Q: 如何提高推理速度?

A: 使用批处理可以显著提高吞吐量。另外，首次推理会有编译开销，后续推理会更快。

Q: 模型支持哪些语言方向?

A: 本模型专门用于土耳其语到英语的翻译。如需其他语言对，请访问 Helsinki-NLP 模型库。

参考链接

原始模型: https://huggingface.co/Helsinki-NLP/opus-mt-tr-en
OPUS-MT: https://github.com/Helsinki-NLP/OPUS-MT-train
MarianMT: https://huggingface.co/transformers/model_doc/marian.html

许可证

本项目遵循 Apache-2.0 许可证