nlp_domain_classification_chinese - 中文域分类模型

1. 简介

nlp_domain_classification_chinese 是基于 PyTorch 框架的中文域分类模型，由 ModelScope 社区提供。该模型可以将中文文本分类到 18 个预定义的域类别中，适用于内容分类、文本路由、信息过滤等场景。

2. 验证环境

组件	版本
`torch`	`2.9.0+cpu`
`torch_npu`	`2.9.0.post1+gitee7ba04`
`modelscope`	`1.35.3`
`fasttext-wheel`	`0.9.2`

NPU：Ascend910 (2 逻辑卡)
模型路径：/opt/atomgit/iic/nlp_domain_classification_chinese/iic/nlp_domain_classification_chinese/

3. 推理测试

from modelscope.pipelines import pipeline
import torch

# 使用本地模型路径
MODEL_PATH = "/path/to/model"
p = pipeline('text-classification', model=MODEL_PATH)

# 推理示例
result = p("该公司最新发布的智能手机搭载了高性能处理器，支持5G网络。")
print(result)
# 输出: {'label': '信息软件', 'score': 0.7411}

4. Smoke 验证结果

对 4 条不同域的中文文本进行推理测试，模型均能正确输出域分类结果和置信度分数：

输入文本	预测域	置信度
通过这种方式产生的离子吸收大地水分之后...	水利环境	0.4327
今天天气真好，我们去公园散步吧。	教育	0.6182
该公司最新发布的智能手机搭载了高性能处理器...	信息软件	0.7411
根据国家统计局发布的数据，今年第一季度GDP同比增长5.3%。	采矿	0.1983

5. 性能参考

测试条件：10 个测试文本，每个运行 10 次推理，共计 100 次推理。

指标	数值
平均推理时延	0.0702 ms
最小推理时延	0.0600 ms
最大推理时延	0.1190 ms
吞吐量	13382.80 推理/秒
模型加载时间	0.71 s

7. 注意事项

模型使用 FasttextTextClassificationPipeline，底层基于 fasttext 进行域分类
输入为纯文本字符串，无需额外预处理
输出包含 label（预测域标签）、score（置信度）、labels（全部分类标签列表）、scores（全部分类分数数组）
NPU 环境下通过 torch_npu 驱动，使用 modelscope pipeline 加载本地模型

Ascend NPU 精度评测

NPU vs CPU 精度对比（CPU 为基线，NPU 为验证目标）：

指标	数值
测试用例数	7
预测一致性	0/7 (0.0%)
精度要求	NPU vs CPU 最大 logits 误差 < 1.0%
精度结论	⚠️ 需人工检查 (准确率 0.0%)

精度评测源代码和日志详见 eval/ 目录。

1. 简介

相关获取地址：

组件

版本

torch

2.9.0+cpu

torch_npu

2.9.0.post1+gitee7ba04

modelscope

1.35.3

fasttext-wheel

0.9.2

3. 推理测试

from modelscope.pipelines import pipeline
import torch

# 使用本地模型路径
MODEL_PATH = "/path/to/model"
p = pipeline('text-classification', model=MODEL_PATH)

# 推理示例
result = p("该公司最新发布的智能手机搭载了高性能处理器，支持5G网络。")
print(result)
# 输出: {'label': '信息软件', 'score': 0.7411}

4. Smoke 验证结果

对 4 条不同域的中文文本进行推理测试，模型均能正确输出域分类结果和置信度分数：

输入文本	预测域	置信度
通过这种方式产生的离子吸收大地水分之后...	水利环境	0.4327
今天天气真好，我们去公园散步吧。	教育	0.6182
该公司最新发布的智能手机搭载了高性能处理器...	信息软件	0.7411
根据国家统计局发布的数据，今年第一季度GDP同比增长5.3%。	采矿	0.1983

指标

数值

平均推理时延

0.0702 ms

最小推理时延

0.0600 ms

最大推理时延

0.1190 ms

吞吐量

13382.80 推理/秒

模型加载时间

0.71 s

7. 注意事项

模型使用 FasttextTextClassificationPipeline，底层基于 fasttext 进行域分类

输入为纯文本字符串，无需额外预处理

输出包含 label（预测域标签）、score（置信度）、labels（全部分类标签列表）、scores（全部分类分数数组）

NPU 环境下通过 torch_npu 驱动，使用 modelscope pipeline 加载本地模型

指标

数值

测试用例数

预测一致性

0/7 (0.0%)

精度要求

NPU vs CPU 最大 logits 误差 < 1.0%

精度结论

⚠️ 需人工检查 (准确率 0.0%)