cv_resnet101_image-single-human-parsing - 昇腾 NPU 适配

1. 模型简介

单人人体解析模型，基于 M2FP (Mask2Former for Parsing) 架构 + ResNet101 骨干网络，可对单人图像进行 20 类语义分割（帽子、头发、上衣、裤子、鞋子等）。

原始模型: iic/cv_resnet101_image-single-human-parsing
框架: PyTorch
任务: Image Single Human Parsing (20 classes)

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	0.999999
平均延迟	467.73 ms
峰值显存	21.22 GB
参数量	63,123,861
推理精度	float16
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

# 安装依赖
pip install torch torch_npu torchvision

# 运行推理
python inference.py --device npu:0 --dtype float16

# 运行精度验证
python evaluate.py --device npu:0 --output report.json

5. 推理输出证据

NPU 推理输出（float16, 512x512）:

模型: iic/cv_resnet101_image-single-human-parsing
设备: npu:0
精度: float16
------------------------------------------------------------
  pred_logits: shape=[1, 100, 21]
  pred_masks: shape=[1, 100, 64, 64]
  pred_logits NaN: False
  pred_masks NaN: False

✓ 推理完成

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float16)	误差
余弦相似度	基准	0.9999992	< 0.0001%
pred_logits 形状	[1,100,21]	[1,100,21]	一致
pred_masks 形状	[1,100,64,64]	[1,100,64,64]	一致
非数字值（NaN）	False	False	一致

7. 模型结构

骨干网络（Backbone）: ResNet101（深度茎干，4 个阶段）
像素解码器（Pixel Decoder）: MSDeformAttn 编码器（6 层）
预测器（Predictor）: Mask2Former 解码器（9 层，100 个查询）
输入: 512x512 RGB 图像
输出: pred_logits [1,100,21] + pred_masks [1,100,64,64]

8. 验证报告

详见 report.json 和 logs/02_evaluate.log。

9. 智能体技能（Agent Skill）

本适配由 vision-encoder-npu-adapt 智能体技能自动完成。

1. 模型简介

单人人体解析模型，基于 M2FP (Mask2Former for Parsing) 架构 + ResNet101 骨干网络，可对单人图像进行 20 类语义分割（帽子、头发、上衣、裤子、鞋子等）。

原始模型: iic/cv_resnet101_image-single-human-parsing

框架: PyTorch

任务: Image Single Human Parsing (20 classes)

指标

值

余弦相似度

0.999999

平均延迟

467.73 ms

峰值显存

21.22 GB

参数量

63,123,861

推理精度

float16

设备

Ascend 910B4

组件

版本

CANN

8.5.1

torch_npu

2.9.0.post1

PyTorch

2.9.0

Python

3.11

4. 快速使用

# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

# 安装依赖
pip install torch torch_npu torchvision

# 运行推理
python inference.py --device npu:0 --dtype float16

# 运行精度验证
python evaluate.py --device npu:0 --output report.json

5. 推理输出证据

NPU 推理输出（float16, 512x512）:

模型: iic/cv_resnet101_image-single-human-parsing
设备: npu:0
精度: float16
------------------------------------------------------------
  pred_logits: shape=[1, 100, 21]
  pred_masks: shape=[1, 100, 64, 64]
  pred_logits NaN: False
  pred_masks NaN: False

✓ 推理完成

指标

CPU (float32)

NPU (float16)

误差

余弦相似度

基准

0.9999992

< 0.0001%

pred_logits 形状

[1,100,21]

一致

pred_masks 形状

[1,100,64,64]

一致

非数字值（NaN）

False

一致

7. 模型结构

骨干网络（Backbone）: ResNet101（深度茎干，4 个阶段）

像素解码器（Pixel Decoder）: MSDeformAttn 编码器（6 层）

预测器（Predictor）: Mask2Former 解码器（9 层，100 个查询）

输入: 512x512 RGB 图像

输出: pred_logits [1,100,21] + pred_masks [1,100,64,64]