cv_cspnet_video-object-detection_longshortnet 在昇腾 NPU 上的适配
1. 简介
- 模型来源:iic/cv_cspnet_video-object-detection_longshortnet
- 架构:LongShortNet(CSPNet 骨干网络 + SPP + YOLOX 检测头)
- 参数量:27,075,968(仅骨干网络)
- 任务:视频目标检测(Video Object Detection)
- 适配状态:成功
- 适配时间:2026-05-18
2. 验证环境
| 组件 | 版本 |
|---|
| torch | 2.9.0 |
| torch-npu | 2.9.0.post1 |
| CANN | 8.5.1 |
| NPU | Ascend 910B4 |
3. 精度评测
| 指标 | 数值 |
|---|
| 余弦相似度 | 0.999999 |
| 最大绝对误差 | 0.007388 |
| 是否满足要求 | 是(余弦相似度 > 0.999) |
4. 性能
| 指标 | 数值 |
|---|
| 平均延迟 | 6.75 ms |
| 输出形状 | [1, 1024, 10, 10] |
5. 适配说明
基于 checkpoint 重建 CSPNet 骨干网络结构,包含 stem、dark2 至 dark5 阶段,每个阶段包含 ConvBnSiLU 下采样层和 C3/CSP 模块(dark5 阶段包含 SPP 模块)。输入为随机视频帧张量 (1, 12, 320, 320),即 4 帧 × 3 通道。
6. 推理输出证据
Model: iic/cv_cspnet_video-object-detection_longshortnet
Output shape: [1, 1024, 10, 10]
Latency: 6.75ms
Cosine Similarity: 0.999999
Max Abs Error: 0.007388
7. CPU 与 NPU 精度对比
| 指标 | CPU | NPU | 差异 |
|---|
| 余弦相似度 | 1.0 | 0.999999 | 0.0001% |
| 最大绝对误差 | - | 0.007388 | - |