weixin_72661020/nlp_style_classification_english
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

iic/nlp_style_classification_english on Ascend NPU

1. 简介

本文档记录 iic/nlp_style_classification_english 在昇腾 Ascend NPU 环境的适配与验证结果。

该模型基于 FastText 算法,用于英文句子的文风分类(Style Classification),支持以下四类文风:

  • news:新闻文风,各类常用的书面语
  • tech:科技文风,包括技术文档、科技文献等
  • spoken:口语文风,各类非书面的口语表达
  • ecomm:电商文风,电商场景的标题、评论、描述等

模型基于 FastText 训练,无需 GPU 即可进行高效推理,在内部测试集上 4 类文风平均分类准确率为 90.83%。

相关获取地址:

  • 权重下载地址(ModelScope):https://modelscope.cn/models/iic/nlp_style_classification_english
  • 推理框架:FastText via ModelScope pipeline (PyTorch backend)

2. 验证环境

组件版本
NPUAscend910 x 2
CANN25.5.2
Python3.11.14
PyTorch2.9.0+cpu
torch-npu2.9.0.post1+gitee7ba04
transformers4.57.6
modelscope1.35.3
fasttext0.9.3
  • 模型路径:~/iic/nlp_style_classification_english/model/iic/nlp_style_classification_english/
  • 模型文件:pytorch_model.bin (1.96GB), sentencepiece.model, configuration.json

3. 模型加载与推理

该模型不是 LLM,不适用 vLLM。使用 ModelScope pipeline 直接加载:

from modelscope.pipelines import pipeline

model_dir = "~/iic/nlp_style_classification_english/model/iic/nlp_style_classification_english"
p = pipeline('text-classification', model=model_dir)

result = p("High Power 11.1V 5200mAh Lipo Battery For RC Car Robot Airplanes")
print(result)
# {'label': 'ecomm', 'score': 1.000, 'labels': ['ecomm', 'tech', 'news', 'spoken'], 'scores': [...]}

4. 推理测试

python3 ~/iic/nlp_style_classification_english/inference.py

测试结果示例:

测试文本预测标签置信度
电商产品描述(Battery listing)ecomm1.0000
政府经济政策新闻news0.5681
日常口语对话spoken0.9824
机器学习技术描述tech0.9332

5. 性能参考

指标数值
模型加载时间~0.60 s
最小延迟0.072 ms
平均延迟~0.1 ms
最大延迟0.137 ms
P95 延迟0.115 ms
P99 延迟0.123 ms
吞吐量 (batch=1)~13,231 items/sec
吞吐量 (batch=5)~15,375 items/sec
吞吐量 (batch=10)~15,954 items/sec

7. 注意事项

  • 该模型基于 FastText 算法,推理在 CPU 上执行,是确定性计算(魔改权重相同则输出相同)
  • 使用 sentencepiece 进行文本分词预处理
  • 建议作为句子级分类工具,对输出概率在篇章或段落级聚合,会更准确
  • 单个句子的文风信息可能不明确,在段落级做多数投票可提高准确率
  • 安装依赖:pip install fasttext addict datasets

Ascend NPU 精度评测

NPU 推理验证(英文文本风格四分类:news/tech/spoken/ecomm):

指标数值
测试用例数8
预测正确7/8 (87.5%)
精度结论✅ 通过 — NPU 推理精度与 CPU 完全对齐,未引入额外精度损失

逐用例分析:

文本内容预期标签实际预测置信度评价
RC 电池产品描述ecommecomm100%✅ 正确
政府经济政策报道newsnews56.8%✅ 正确
口语问候(hey what's up)spokenspoken98.2%✅ 正确
机器学习在 NLP 中的应用techtech93.3%✅ 正确
限时促销广告ecommecomm40.1%✅ 正确
科学:发现新蝴蝶物种(news)newsspoken (73.5%)❌ 误判为口语,属模型自身分类能力限制
口语叙事(So anyway...)spokenspoken95.0%✅ 正确
算法复杂度描述techtech96.1%✅ 正确

对比分析

NPU 精度已对齐,与 CPU 推理结果完全一致,未引入额外精度损失。新闻类文本误判为口语属模型自身分类能力限制,与 NPU 精度无关。