cv_unet_video-deinterlace - Ascend NPU 适配
1. 模型简介
视频去场纹模型,基于 UNet 架构,包含频域去场纹模块 (DeinterlaceFre) 和多帧重建增强模块 (DeinterlaceEnh),用于去除隔行扫描视频中的场纹。
- 原始模型: iic/cv_unet_video-deinterlace
- 框架: PyTorch + ModelScope
- 任务: Video Deinterlace (视频去场纹)
- Backbone: UNet (frequency-domain + multi-frame enhancement)
2. 昇腾 NPU 适配结果
| 指标 | 值 |
|---|
| Cosine Similarity | 0.999986 |
| Max Abs Error | 0.012915 |
| 平均延迟 | 28.92ms |
| 输出维度 | (1, 3, 64, 64) |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
3. 环境要求
| 组件 | 版本 |
|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
| modelscope | latest |
4. 快速使用
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py
python evaluate.py
5. 推理输出证据
Model: iic/cv_unet_video-deinterlace
Device: npu:0
Output shape: [1, 3, 64, 64]
Output sample: [0.07940101623535156, -0.05751371011137962, 0.07430489361286163, -0.14583489298820496, -0.07235150039196014]
Latency: 28.92ms
--- CPU vs NPU 精度对比 ---
Cosine Similarity: 0.999986
Max Abs Error: 0.012915
SUCCESS
6. CPU 与 NPU 精度对比
| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|
| 余弦相似度 | 基准 | 0.999986 | < 0.0001 |
| 最大绝对误差 | - | 0.012915 | - |
| 输出维度 | (1, 3, 64, 64) | (1, 3, 64, 64) | 一致 |
7. 模型结构
- frenet:DeinterlaceFre - 频域去场纹 UNet(3 级编码器 - 解码器 + FFT 上采样)
- enhnet:DeinterlaceEnh - 多帧增强 UNet(4 级编码器 - 解码器 + 偏移卷积)
- 输入:3 帧 RGB 图像 (B, T=3, C=3, H, W)
- 输出:修复帧 (B, C=3, H, W)
- NPU 适配要点:FFT 复数张量绝对值操作需手动实现(sqrt(real^2 + imag^2))