cv_unet_video-deinterlace - Ascend NPU 适配

1. 模型简介

视频去场纹模型，基于 UNet 架构，包含频域去场纹模块 (DeinterlaceFre) 和多帧重建增强模块 (DeinterlaceEnh)，用于去除隔行扫描视频中的场纹。

原始模型: iic/cv_unet_video-deinterlace
框架: PyTorch + ModelScope
任务: Video Deinterlace (视频去场纹)
Backbone: UNet (frequency-domain + multi-frame enhancement)

2. 昇腾 NPU 适配结果

指标	值
Cosine Similarity	0.999986
Max Abs Error	0.012915
平均延迟	28.92ms
输出维度	(1, 3, 64, 64)
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/cv_unet_video-deinterlace
Device: npu:0
Output shape: [1, 3, 64, 64]
Output sample: [0.07940101623535156, -0.05751371011137962, 0.07430489361286163, -0.14583489298820496, -0.07235150039196014]
Latency: 28.92ms

--- CPU vs NPU 精度对比 ---
Cosine Similarity: 0.999986
Max Abs Error: 0.012915
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度	基准	0.999986	< 0.0001
最大绝对误差	-	0.012915	-
输出维度	(1, 3, 64, 64)	(1, 3, 64, 64)	一致

7. 模型结构

frenet：DeinterlaceFre - 频域去场纹 UNet（3 级编码器 - 解码器 + FFT 上采样）
enhnet：DeinterlaceEnh - 多帧增强 UNet（4 级编码器 - 解码器 + 偏移卷积）
输入：3 帧 RGB 图像 (B, T=3, C=3, H, W)
输出：修复帧 (B, C=3, H, W)
NPU 适配要点：FFT 复数张量绝对值操作需手动实现（sqrt(real^2 + imag^2)）

cv_unet_video-deinterlace - Ascend NPU 适配

1. 模型简介

视频去场纹模型，基于 UNet 架构，包含频域去场纹模块 (DeinterlaceFre) 和多帧重建增强模块 (DeinterlaceEnh)，用于去除隔行扫描视频中的场纹。

原始模型: iic/cv_unet_video-deinterlace
框架: PyTorch + ModelScope
任务: Video Deinterlace (视频去场纹)
Backbone: UNet (frequency-domain + multi-frame enhancement)

2. 昇腾 NPU 适配结果

指标	值
Cosine Similarity	0.999986
Max Abs Error	0.012915
平均延迟	28.92ms
输出维度	(1, 3, 64, 64)
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/cv_unet_video-deinterlace
Device: npu:0
Output shape: [1, 3, 64, 64]
Output sample: [0.07940101623535156, -0.05751371011137962, 0.07430489361286163, -0.14583489298820496, -0.07235150039196014]
Latency: 28.92ms

--- CPU vs NPU 精度对比 ---
Cosine Similarity: 0.999986
Max Abs Error: 0.012915
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度	基准	0.999986	< 0.0001
最大绝对误差	-	0.012915	-
输出维度	(1, 3, 64, 64)	(1, 3, 64, 64)	一致

7. 模型结构

frenet：DeinterlaceFre - 频域去场纹 UNet（3 级编码器 - 解码器 + FFT 上采样）
enhnet：DeinterlaceEnh - 多帧增强 UNet（4 级编码器 - 解码器 + 偏移卷积）
输入：3 帧 RGB 图像 (B, T=3, C=3, H, W)
输出：修复帧 (B, C=3, H, W)
NPU 适配要点：FFT 复数张量绝对值操作需手动实现（sqrt(real^2 + imag^2)）