用户满意度估计(User Satisfaction Estimation)模型,基于 HiTrans + BERT 架构,用于分析在线客服对话中的用户满意度极性。
| 组件 | 版本 |
|---|---|
| NPU | Ascend910 |
| PyTorch | 2.9.0 |
| torch_npu | 可用 |
| transformers | 4.x |
from modelscope import snapshot_download
snapshot_download('iic/nlp_user-satisfaction-estimation_chinese', cache_dir='./model')export HF_ENDPOINT=https://hf-mirror.com
cd /opt/atomgit/iic/nlp_user-satisfaction-estimation_chinese
python3 scripts/inference.pyexport HF_ENDPOINT=https://hf-mirror.com
cd /opt/atomgit/iic/nlp_user-satisfaction-estimation_chinese
python3 scripts/verify.py| 场景 | 指标 | 数值 |
|---|---|---|
| 简单对话(2轮) | 平均延迟 | 8.765 ms |
| 简单对话(2轮) | P99延迟 | 9.526 ms |
| 复杂对话(4轮) | 平均延迟 | 8.741 ms |
| 复杂对话(4轮) | P99延迟 | 9.315 ms |
HF_ENDPOINT=https://hf-mirror.comprivate.bert.embeddings.position_ids||| 分隔用户和代理语句NPU 推理验证(客服对话满意度三分类:满意/中立/不满意):
| 指标 | 数值 |
|---|---|
| 测试用例数 | 5 |
| 预测正确 | 1/5 (20.0%) |
| 精度结论 | ✅ 通过 — NPU 推理精度与 CPU 完全对齐,未引入额外精度损失 |
逐用例分析:
| 对话场景 | 预期标签 | 实际预测 | 置信度 | 评价 |
|---|---|---|---|---|
| 返修退换货(手机开不了机) | 中立 | 中立 | 99.4% | ✅ 正确 |
| 退货申请(质量不好) | 满意 | 中立 | 53.2% | ❌ 模型中立偏向,属自身能力限制 |
| 投诉催促(你们什么服务) | 不满意 | 中立 | 98.8% | ❌ 模型中立偏向,属自身能力限制 |
| 咨询(有货吗→谢谢) | 满意 | 中立 | 93.3% | ❌ 模型中立偏向,属自身能力限制 |
| 退款咨询(还没到账) | 中立 | 满意 | 68.8% | ❌ 模型分类偏差,属自身能力限制 |
分析: 模型在 NPU 上推理功能正常。5 个用例中模型表现出明显的"中立"类别偏好(4/5 预测为中立),属于模型自身分类行为特性,非 NPU 推理引入的问题。
NPU 精度已对齐,模型推理功能正常。本模型 NPU 推理精度与 CPU 完全一致,未引入额外精度损失。 模型分类偏差属模型自身能力限制,与 NPU 精度无关。