单人人体解析模型,基于 M2FP (Mask2Former for Parsing) 架构 + ResNet101 骨干网络,可对单人图像进行 20 类语义分割(帽子、头发、上衣、裤子、鞋子等)。
| 指标 | 值 |
|---|---|
| 余弦相似度 | 0.999999 |
| 平均延迟 | 467.73 ms |
| 峰值显存 | 21.22 GB |
| 参数量 | 63,123,861 |
| 推理精度 | float16 |
| 设备 | Ascend 910B4 |
| 组件 | 版本 |
|---|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
# 安装依赖
pip install torch torch_npu torchvision
# 运行推理
python inference.py --device npu:0 --dtype float16
# 运行精度验证
python evaluate.py --device npu:0 --output report.jsonNPU 推理输出(float16, 512x512):
模型: iic/cv_resnet101_image-single-human-parsing
设备: npu:0
精度: float16
------------------------------------------------------------
pred_logits: shape=[1, 100, 21]
pred_masks: shape=[1, 100, 64, 64]
pred_logits NaN: False
pred_masks NaN: False
✓ 推理完成| 指标 | CPU (float32) | NPU (float16) | 误差 |
|---|---|---|---|
| 余弦相似度 | 基准 | 0.9999992 | < 0.0001% |
| pred_logits 形状 | [1,100,21] | [1,100,21] | 一致 |
| pred_masks 形状 | [1,100,64,64] | [1,100,64,64] | 一致 |
| 非数字值(NaN) | False | False | 一致 |
详见 report.json 和 logs/02_evaluate.log。
本适配由 vision-encoder-npu-adapt 智能体技能自动完成。