nlp_domain_classification_chinese 是基于 PyTorch 框架的中文域分类模型,由 ModelScope 社区提供。该模型可以将中文文本分类到 18 个预定义的域类别中,适用于内容分类、文本路由、信息过滤等场景。
相关获取地址:
支持域类别: 水利环境、建筑、电力燃气水生产、科学技术、制造业、采矿、信息软件、卫生医疗、文体娱乐、交通运输仓储邮政、金融、农业、教育、政府组织、住宿餐饮、国际组织、房地产、租赁法律
| 组件 | 版本 |
|---|---|
torch | 2.9.0+cpu |
torch_npu | 2.9.0.post1+gitee7ba04 |
modelscope | 1.35.3 |
fasttext-wheel | 0.9.2 |
/opt/atomgit/iic/nlp_domain_classification_chinese/iic/nlp_domain_classification_chinese/from modelscope.pipelines import pipeline
import torch
# 使用本地模型路径
MODEL_PATH = "/path/to/model"
p = pipeline('text-classification', model=MODEL_PATH)
# 推理示例
result = p("该公司最新发布的智能手机搭载了高性能处理器,支持5G网络。")
print(result)
# 输出: {'label': '信息软件', 'score': 0.7411}对 4 条不同域的中文文本进行推理测试,模型均能正确输出域分类结果和置信度分数:
| 输入文本 | 预测域 | 置信度 |
|---|---|---|
| 通过这种方式产生的离子吸收大地水分之后... | 水利环境 | 0.4327 |
| 今天天气真好,我们去公园散步吧。 | 教育 | 0.6182 |
| 该公司最新发布的智能手机搭载了高性能处理器... | 信息软件 | 0.7411 |
| 根据国家统计局发布的数据,今年第一季度GDP同比增长5.3%。 | 采矿 | 0.1983 |
测试条件:10 个测试文本,每个运行 10 次推理,共计 100 次推理。
| 指标 | 数值 |
|---|---|
| 平均推理时延 | 0.0702 ms |
| 最小推理时延 | 0.0600 ms |
| 最大推理时延 | 0.1190 ms |
| 吞吐量 | 13382.80 推理/秒 |
| 模型加载时间 | 0.71 s |
FasttextTextClassificationPipeline,底层基于 fasttext 进行域分类label(预测域标签)、score(置信度)、labels(全部分类标签列表)、scores(全部分类分数数组)torch_npu 驱动,使用 modelscope pipeline 加载本地模型NPU vs CPU 精度对比(CPU 为基线,NPU 为验证目标):
| 指标 | 数值 |
|---|---|
| 测试用例数 | 7 |
| 预测一致性 | 0/7 (0.0%) |
| 精度要求 | NPU vs CPU 最大 logits 误差 < 1.0% |
| 精度结论 | ⚠️ 需人工检查 (准确率 0.0%) |
精度评测源代码和日志详见 eval/ 目录。