donut-or-bagel

1. 简介

本文档记录 nateraw/donut-or-bagel 在昇腾 NPU（Ascend910）环境的快速部署与验证结果。

ViTForImageClassification 图像分类模型，基于 HuggingFace transformers 框架，支持一键加载推理。

2. 验证环境

组件	版本
`torch`	`2.5.1`
`torch_npu`	`2.5.1`
`transformers`	`>=4.48.0`
`CANN`	`8.5.RC1`

NPU：Ascend910（单卡）
输入尺寸：224
类别数：2
推理框架：PyTorch + transformers

3. 快速部署

3.1 环境准备

pip install transformers torch torchvision pillow

3.2 推理代码

import torch
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image

device = torch.device("npu:0" if torch.npu.is_available() else "cpu")

processor = AutoImageProcessor.from_pretrained("nateraw/donut-or-bagel")
model = AutoModelForImageClassification.from_pretrained("nateraw/donut-or-bagel")
model = model.to(device).eval()

image = Image.new("RGB", (224, 224), (128, 128, 128))
inputs = processor(images=image, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}

with torch.no_grad():
    outputs = model(**inputs)
pred = outputs.logits.argmax(-1).item()
print(f"Predicted class: {pred}")

4. Smoke 验证

python3 inference.py

验证结果：

模型成功加载到 npu:0
输出预测类别（整数索引）
推理过程无报错

5. 性能参考

测试条件：FP32 / batch=1 / warmup=5 / timed=50 runs，Ascend910 单卡。

指标	数值
平均推理时间	`5.80 ms`
测试次数	`50`

6. 精度评测

NPU 与 CPU 输出对比，使用 4 张纯色测试图（RGB 255/0、0/255/0、0/0/255、128/128/128），比较 logits 一致性。

指标	数值
Top-1 一致性	`4/4`
Top-5 一致性	`4/4`
最大 logits 相对误差	`0.266` %
平均 KL 散度	`0.0`
结论	`PASS`

7. 注意事项

AutoImageProcessor 会自动匹配模型配置中的 image_size，无需手动设置
ConvNeXt V1 和 V2 架构不同，但 AutoModelForImageClassification 可自动识别
NPU 推理结果与 CPU 在 Top-1/Top-5 完全一致，最大 logits 相对误差 < 1%（判定阈值）

1. 简介

本文档记录 nateraw/donut-or-bagel 在昇腾 NPU（Ascend910）环境的快速部署与验证结果。

ViTForImageClassification 图像分类模型，基于 HuggingFace transformers 框架，支持一键加载推理。

相关获取地址：

参考文档：

组件

版本

torch

2.5.1

torch_npu

2.5.1

transformers

>=4.48.0

CANN

8.5.RC1

3. 快速部署

3.1 环境准备

pip install transformers torch torchvision pillow

3.2 推理代码

import torch
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image

device = torch.device("npu:0" if torch.npu.is_available() else "cpu")

processor = AutoImageProcessor.from_pretrained("nateraw/donut-or-bagel")
model = AutoModelForImageClassification.from_pretrained("nateraw/donut-or-bagel")
model = model.to(device).eval()

image = Image.new("RGB", (224, 224), (128, 128, 128))
inputs = processor(images=image, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}

with torch.no_grad():
    outputs = model(**inputs)
pred = outputs.logits.argmax(-1).item()
print(f"Predicted class: {pred}")

指标

数值

平均推理时间

5.80 ms

测试次数

50

指标

数值

Top-1 一致性

4/4

Top-5 一致性

4/4

最大 logits 相对误差

0.266 %

平均 KL 散度

0.0

结论

PASS