xujiashuai/timm-cv_resnet101_image-single-human-parsing
模型介绍文件和版本Pull Requests讨论分析

cv_resnet101_image-single-human-parsing - 昇腾 NPU 适配

1. 模型简介

单人人体解析模型,基于 M2FP (Mask2Former for Parsing) 架构 + ResNet101 骨干网络,可对单人图像进行 20 类语义分割(帽子、头发、上衣、裤子、鞋子等)。

  • 原始模型: iic/cv_resnet101_image-single-human-parsing
  • 框架: PyTorch
  • 任务: Image Single Human Parsing (20 classes)

2. 昇腾 NPU 适配结果

指标值
余弦相似度0.999999
平均延迟467.73 ms
峰值显存21.22 GB
参数量63,123,861
推理精度float16
设备Ascend 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11

4. 快速使用

# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

# 安装依赖
pip install torch torch_npu torchvision

# 运行推理
python inference.py --device npu:0 --dtype float16

# 运行精度验证
python evaluate.py --device npu:0 --output report.json

5. 推理输出证据

NPU 推理输出(float16, 512x512):

模型: iic/cv_resnet101_image-single-human-parsing
设备: npu:0
精度: float16
------------------------------------------------------------
  pred_logits: shape=[1, 100, 21]
  pred_masks: shape=[1, 100, 64, 64]
  pred_logits NaN: False
  pred_masks NaN: False

✓ 推理完成

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float16)误差
余弦相似度基准0.9999992< 0.0001%
pred_logits 形状[1,100,21][1,100,21]一致
pred_masks 形状[1,100,64,64][1,100,64,64]一致
非数字值(NaN)FalseFalse一致

7. 模型结构

  • 骨干网络(Backbone): ResNet101(深度茎干,4 个阶段)
  • 像素解码器(Pixel Decoder): MSDeformAttn 编码器(6 层)
  • 预测器(Predictor): Mask2Former 解码器(9 层,100 个查询)
  • 输入: 512x512 RGB 图像
  • 输出: pred_logits [1,100,21] + pred_masks [1,100,64,64]

8. 验证报告

详见 report.json 和 logs/02_evaluate.log。

9. 智能体技能(Agent Skill)

本适配由 vision-encoder-npu-adapt 智能体技能自动完成。

下载使用量0