yolov8m-shoe-classification

1. 简介

本文档记录 keremberke/yolov8m-shoe-classification (YOLOv8m 图像分类模型) 在昇腾 NPU（Ascend910）环境的快速部署与验证结果。

该模型基于 Ultralytics YOLOv8 分类架构，使用 PyTorch 框架，支持一键加载推理。

2. 验证环境

组件	版本
`torch`	`2.5.1`
`torch_npu`	`2.5.1`
`ultralytics`	`>=8.0.23`
`CANN`	`8.5.RC1`

NPU：Ascend910（单卡）
输入尺寸：224x224
类别数：3
推理框架：PyTorch + Ultralytics
精度：FP16

3. 快速部署

3.1 环境准备

pip install ultralytics torch torchvision pillow

3.2 推理代码

import torch
from ultralytics import YOLO

# 加载模型（自动选择 NPU 如果可用）
device = "npu:0" if torch.npu.is_available() else "cpu"
model = YOLO("keremberke/yolov8m-shoe-classification")
model.to(device)

# 预测
results = model.predict("image.jpg")
print(f"Predicted class: {results[0].probs.top1}")
print(f"Confidence: {results[0].probs.top1conf:.4f}")

3.3 直接权重推理（无须联网）

pip install torch torchvision pillow
# 使用本地下载的 best.pt 权重
python3 inference.py

4. Smoke 验证

python3 inference.py

验证结果：

模型成功加载到 npu:0
输出预测类别（整数索引）
推理过程无报错

5. 性能参考

测试条件：FP16 / batch=1 / warmup=5 / timed=50 runs，Ascend910 单卡。

指标	数值
平均推理时间	`3.80 ms`
测试次数	`50`

6. 精度评测

NPU 与 CPU 输出对比，使用 4 张纯色测试图（RGB 255/0、0/255/0、0/0/255、128/128/128），比较 logits 一致性。

指标	数值
Top-1 一致性	`4/4`
Top-5 一致性	`4/4`
最大 logits 差异	`1.8e-05`
最大 logits 相对误差	`0.0018` %
平均 KL 散度	`0.0`
结论	`PASS`

7. 注意事项

此模型为 ultralytics YOLOv8 .pt 格式，非 HuggingFace transformers 标准格式，不能使用 AutoModelForImageClassification 加载
NPU 推理需使用 FP16（模型权重原生 FP16，input 也需 .half()），CPU 对比时需 .float() 统一为 FP32 计算偏差
输入预处理：resize(224) + center_crop(224) + ImageNet 归一化（mean=[0.485,0.456,0.406], std=[0.229,0.224,0.225]）
输出为 tuple，需 [0] 索引取 logits
NPU 推理结果与 CPU 在 Top-1/Top-5 完全一致，最大 logits 相对误差 < 1%（判定阈值）

8. 适配技能

本模型使用 img-classify-npu 技能适配。详情请参考技能文档。

SKILL.md: ~/.claude/skills/img-classify-npu/SKILL.md

1. 简介

本文档记录 keremberke/yolov8m-shoe-classification (YOLOv8m 图像分类模型) 在昇腾 NPU（Ascend910）环境的快速部署与验证结果。

该模型基于 Ultralytics YOLOv8 分类架构，使用 PyTorch 框架，支持一键加载推理。

相关获取地址：

参考文档：

组件

版本

torch

2.5.1

torch_npu

2.5.1

ultralytics

>=8.0.23

CANN

8.5.RC1

3. 快速部署

3.1 环境准备

pip install ultralytics torch torchvision pillow

3.2 推理代码

import torch
from ultralytics import YOLO

# 加载模型（自动选择 NPU 如果可用）
device = "npu:0" if torch.npu.is_available() else "cpu"
model = YOLO("keremberke/yolov8m-shoe-classification")
model.to(device)

# 预测
results = model.predict("image.jpg")
print(f"Predicted class: {results[0].probs.top1}")
print(f"Confidence: {results[0].probs.top1conf:.4f}")

3.3 直接权重推理（无须联网）

pip install torch torchvision pillow
# 使用本地下载的 best.pt 权重
python3 inference.py

指标

数值

平均推理时间

3.80 ms

测试次数

50

指标

数值

Top-1 一致性

4/4

Top-5 一致性

4/4

最大 logits 差异

1.8e-05

最大 logits 相对误差

0.0018 %

平均 KL 散度

0.0

结论

PASS

7. 注意事项

此模型为 ultralytics YOLOv8 .pt 格式，非 HuggingFace transformers 标准格式，不能使用 AutoModelForImageClassification 加载

NPU 推理需使用 FP16（模型权重原生 FP16，input 也需 .half()），CPU 对比时需 .float() 统一为 FP32 计算偏差

输入预处理：resize(224) + center_crop(224) + ImageNet 归一化（mean=[0.485,0.456,0.406], std=[0.229,0.224,0.225]）

输出为 tuple，需 [0] 索引取 logits

NPU 推理结果与 CPU 在 Top-1/Top-5 完全一致，最大 logits 相对误差 < 1%（判定阈值）