zkx_/pysentimiento_robertuito-sentiment-analysis-ascend

pysentimiento_robertuito-sentiment-analysis-ascend:pysentimiento_robertuito-sentiment-analysis NPU - AtomGit AI社区

pysentimiento/robertuito-sentiment-analysis on Ascend NPU

1. 简介

本文档记录 pysentimiento/robertuito-sentiment-analysis 西班牙语情感分析模型在昇腾 NPU（Ascend 910B3）上的迁移适配、精度评测与性能验证结果。

该模型基于 RoBERTuito（Roberta 的西班牙语移植版，12 层 768 维），在西班牙语推文情感数据集上微调，支持 3 种情感：NEG（negativo，负面）、NEU（neutral，中性）、POS（positivo，正面）。RoBERTuito 使用西班牙语专用 BPE tokenizer，支持重音字符（áéíóúüñ）、倒问号/叹号（¿¡）等西班牙语特有符号。

2. 验证环境

组件	版本
`torch`	`2.8.0`
`torch_npu`	`2.8.0.post4`
`transformers`	`5.8.1`
`CANN`	`8.5.1`

NPU：8 × Ascend 910B3
精度对比基准：CPU（x86, PyTorch 2.8.0）

3. 部署使用流程

3.1 环境准备

conda create -n pysentimiento_robertuito-sentiment-analysis python=3.11 -y
conda activate pysentimiento_robertuito-sentiment-analysis

pip install torch==2.8.0 torch_npu==2.8.0.post4 \
    -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install transformers numpy \
    -i https://pypi.tuna.tsinghua.edu.cn/simple

3.2 推理脚本使用

python inference.py --text "Me encanta este producto!" --device npu
python inference.py --text "Qué mal servicio, muy decepcionado." --device npu

编程接口：

from inference import PersonalityClassifier
clf = PersonalityClassifier(
    model_path="./pysentimiento_robertuito-sentiment-analysis", device="npu"
)
results, probs = clf.predict(["Me encanta este producto!"])
# results[0] → {'POS': 0.92, 'NEU': 0.05, 'NEG': 0.03}

4. Smoke 验证

python inference.py --text "Me encanta este producto!" --device npu

预期输出：NEG/NEU/POS 三类概率，正面文本 POS 概率最高，无运行时错误。

5. 性能参考

测试条件：10 条西班牙语推文，batch_size=16，NPU 预热 1 轮。

指标	数值
CPU 吞吐量	`33.8` texts/s
NPU 吞吐量	`142.0` texts/s
CPU/NPU 加速比	`4.2` ×

西班牙语模型在 NPU 上的加速比（4.2×）低于英文模型，因西班牙语平均 token 数多于英文（重音字符+更长的形态变化），序列更长导致吞吐下降。

6. 精度评测

6.1 评测方法

分别在 CPU 和 NPU 上推理 10 条西班牙语推文，比较 3 维 softmax 概率向量的余弦相似度、MAE 和 Top-1 一致性。

6.2 评测结果

指标	数值
平均余弦相似度	`1.000000`
MAE	`0.000288`
最大误差	`0.001056`
精度误差率	`0.0000%`
Top-1 准确率	`100.0%`

结论：精度误差率 0.0000%，评测通过。

7. 迁移适配说明

7.1 模型结构

Backbone：RobertaModel（RoBERTuito 西班牙语版，12 层 768 维）
Classifier Head：768 → 3（NEG/NEU/POS），3 类 softmax
Tokenizer：西班牙语 BPE（含 áéíóúüñ¿¡ 等特殊字符）
权重：safetensors + pytorch_model.bin 双格式
参数量：约 110M

7.2 适配要点

AutoModelForSequenceClassification.from_pretrained() 加载
model.to("npu:0") 迁移
西班牙语 BPE tokenizer 在 CPU 端分词（特殊字符处理）
与英文 RoBERTa 完全相同的适配流程

7.3 关键代码

import torch, torch_npu
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained(
    "robertuito-sentiment-analysis"
).to("npu:0")
tokenizer = AutoTokenizer.from_pretrained("robertuito-sentiment-analysis")

text = "Me encanta este producto!"
inputs = tokenizer(text, return_tensors="pt", truncation=True)
inputs = {k: v.to("npu:0") for k, v in inputs.items()}

with torch.no_grad():
    probs = torch.softmax(model(**inputs).logits, dim=-1)
    sentiment = model.config.id2label[int(torch.argmax(probs))]

8. 注意事项

西班牙语专用：RoBERTuito 在西班牙语推文上训练，支持拉丁美洲和欧洲西班牙语变体。对英文也有一定兼容性但非优化场景。
特殊字符处理：tokenizer 正确处理西班牙语重音字符（á, é, í, ó, ú, ü）、ñ、倒问号（¿）、倒叹号（¡），分词时不会错误拆分。
推文领域适配：模型在推文数据上微调，对短文本、非正式表达、俚语、表情符号、缩写和 hashtag 均有良好鲁棒性。长篇正式文本也可使用但非典型场景。
3 类情感：NEG（negativo）/ NEU（neutral）/ POS（positivo），3 分类比二分类（正/负）更细粒度，能避免将中性表达误判为正或负。
首次 NPU 推理：RoBERTa 12 层预热约 3-5 秒。