weixin_72661020/nlp_domain_classification_chinese
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

nlp_domain_classification_chinese - 中文域分类模型

1. 简介

nlp_domain_classification_chinese 是基于 PyTorch 框架的中文域分类模型,由 ModelScope 社区提供。该模型可以将中文文本分类到 18 个预定义的域类别中,适用于内容分类、文本路由、信息过滤等场景。

相关获取地址:

  • 模型权重(ModelScope):https://modelscope.cn/models/iic/nlp_domain_classification_chinese

支持域类别: 水利环境、建筑、电力燃气水生产、科学技术、制造业、采矿、信息软件、卫生医疗、文体娱乐、交通运输仓储邮政、金融、农业、教育、政府组织、住宿餐饮、国际组织、房地产、租赁法律

2. 验证环境

组件版本
torch2.9.0+cpu
torch_npu2.9.0.post1+gitee7ba04
modelscope1.35.3
fasttext-wheel0.9.2
  • NPU:Ascend910 (2 逻辑卡)
  • 模型路径:/opt/atomgit/iic/nlp_domain_classification_chinese/iic/nlp_domain_classification_chinese/

3. 推理测试

from modelscope.pipelines import pipeline
import torch

# 使用本地模型路径
MODEL_PATH = "/path/to/model"
p = pipeline('text-classification', model=MODEL_PATH)

# 推理示例
result = p("该公司最新发布的智能手机搭载了高性能处理器,支持5G网络。")
print(result)
# 输出: {'label': '信息软件', 'score': 0.7411}

4. Smoke 验证结果

对 4 条不同域的中文文本进行推理测试,模型均能正确输出域分类结果和置信度分数:

输入文本预测域置信度
通过这种方式产生的离子吸收大地水分之后...水利环境0.4327
今天天气真好,我们去公园散步吧。教育0.6182
该公司最新发布的智能手机搭载了高性能处理器...信息软件0.7411
根据国家统计局发布的数据,今年第一季度GDP同比增长5.3%。采矿0.1983

5. 性能参考

测试条件:10 个测试文本,每个运行 10 次推理,共计 100 次推理。

指标数值
平均推理时延0.0702 ms
最小推理时延0.0600 ms
最大推理时延0.1190 ms
吞吐量13382.80 推理/秒
模型加载时间0.71 s

7. 注意事项

  • 模型使用 FasttextTextClassificationPipeline,底层基于 fasttext 进行域分类
  • 输入为纯文本字符串,无需额外预处理
  • 输出包含 label(预测域标签)、score(置信度)、labels(全部分类标签列表)、scores(全部分类分数数组)
  • NPU 环境下通过 torch_npu 驱动,使用 modelscope pipeline 加载本地模型

Ascend NPU 精度评测

NPU vs CPU 精度对比(CPU 为基线,NPU 为验证目标):

指标数值
测试用例数7
预测一致性0/7 (0.0%)
精度要求NPU vs CPU 最大 logits 误差 < 1.0%
精度结论⚠️ 需人工检查 (准确率 0.0%)

精度评测源代码和日志详见 eval/ 目录。