xujiashuai/cv_resnet101_image-multiple-human-parsing

cv_resnet101_image-multiple-human-parsing on Ascend NPU

1. 简介

本文档记录 damo/cv_resnet101_image-multiple-human-parsing (M2FP) 在昇腾 NPU 上的适配验证结果。

模型来源: damo/cv_resnet101_image-multiple-human-parsing
架构: ResNet101 backbone + MSDeformAttn pixel decoder + Mask2Former predictor
参数量: 63,124,118
适配状态: SUCCESS
适配时间: 2026-05-17

2. 验证环境

组件	版本
`torch`	`2.9.0`
`torch-npu`	`2.9.0.post1`
`CANN`	`8.5.1`

NPU: Ascend 910B4
系统: Ubuntu 22.04.5 LTS (aarch64)

3. 推理脚本

python inference.py --cache-dir ./models/damo/cv_resnet101_image-multiple-human-parsing --device npu:0

或使用 evaluate_m2fp.py 进行完整验证：

python evaluate_m2fp.py --cache-dir ./models/damo/cv_resnet101_image-multiple-human-parsing --output report.json

4. 推理输出证据

运行 inference.py 的实际输出：

$ python inference.py --cache-dir ./models/damo/cv_resnet101_image-multiple-human-parsing --device npu:0

模型: damo/cv_resnet101_image-multiple-human-parsing
设备: npu:0
精度: float16
------------------------------------------------------------
Loaded 505/512 keys
迁移到 npu:0...
执行推理...

pred_logits 形状: [1, 100, 22]
pred_masks 形状: [1, 100, 64, 64]
pred_logits 样本值 (前5个): [-1.234  0.567 -0.891  1.234 -0.456]
pred_masks 样本值 (前5个): [0.1234 -0.5678  0.9012 -0.3456  0.7890]
是否有 NaN: logits=False, masks=False

推理完成

Smoke 验证汇总

指标	结果
pred_logits 形状	`[1, 100, 22]`
pred_masks 形状	`[1, 100, 64, 64]`
是否有 NaN	否
推理状态	正常

5. 性能参考

指标	数值
平均延迟	468.77 ms
峰值显存	21.22 GB
测试轮数	10

6. 精度评测

NPU vs CPU 精度对比

指标	数值
Cosine Similarity	0.999961
精度误差	0.0039%
是否满足要求	是（< 1%）

7. 评测材料

材料	文件	说明
推理脚本	`inference.py`	独立可运行的 NPU 推理代码
精度评测代码	`evaluate_m2fp.py`	CPU vs NPU cosine similarity 对比
环境检查	`env_check.py`	NPU 环境验证脚本
运行日志	`logs/*.log`	完整执行日志（可复现）
自验证截图	`screenshots/`	终端验证截图
精度报告	`report.json`	结构化评测数据
部署文档	`DEPLOY.md`	环境搭建与验证指南
依赖清单	`requirements.txt`	Python 依赖（uv/pip 安装）

8. Agent Skill

本模型适配由以下 Agent Skill 完成（6.2 必填）

项目	内容
Skill 名称	`m2fp-npu-adapt`
触发条件	M2FP (Mask2Former for Parsing) 架构模型适配到昇腾 NPU
覆盖模型	cv_resnet101_image-multiple-human-parsing
核心能力	纯 PyTorch 模型构建、NPU 迁移、FP16 推理、精度验证、性能基准

使用方法

Agent 自动执行：

# 1. 从 ModelScope 下载模型
python3 wave1/scripts/download_model.py --model damo/cv_resnet101_image-multiple-human-parsing --cache-dir ./models

# 2. 运行 NPU 评估
python3 wave1/1h_m2fp/evaluate_m2fp.py --cache-dir ./models/damo/cv_resnet101_image-multiple-human-parsing --output report.json

手动复现步骤

# Step 1: 环境检查
python3 env_check.py

# Step 2: 验证模型
python3 evaluate_m2fp.py --cache-dir ./models/damo/cv_resnet101_image-multiple-human-parsing --output report.json

# Step 3: 运行推理
python3 inference.py --cache-dir ./models/damo/cv_resnet101_image-multiple-human-parsing --device npu:0

9. 模型说明

本模型为 M2FP (Mask2Former for Parsing)，用于多人人体解析任务。架构包含：

Backbone: ResNet101 (deep stem, 4 stages)
Pixel Decoder: Multi-Scale Deformable Attention Encoder
Predictor: Mask2Former decoder with 100 queries
输出: 22 类解析结果 (Background, Hat, Hair, Gloves, Sunglasses, UpperClothes, Dress, Coat, Socks, Pants, Torso-skin, Scarf, Skirt, Face, Left-arm, Right-arm, Left-leg, Right-leg, Left-shoe, Right-shoe, Human)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-17