AIMv2-3B-patch14-448 昇腾 NPU 推理适配

1. 简介

本文档记录 apple/aimv2-3B-patch14-448 在华为昇腾 Ascend910B4 上的推理适配与验证结果。

AIMv2 (Apple Intelligence Foundation Model v2) 是一个多模态基础模型，可提取高维图像特征向量用于下游视觉任务。本仓库提供基于 PyTorch + torch_npu 的推理适配方案。

注意：本仓库为 aimv2-3B-patch14-448 分辨率的适配版本。448×448 输入相比 224 版本拥有 4 倍像素数量，token 数从 256 增加到 1024，适用于对细节要求更高的下游任务。

与 aimv2-3B-patch14-224 的适配流程完全一致，仅需修改：

# 转换权重
python3 aimv2_weight_convert.py

# 运行推理
python3 inference.py

测试条件：batch=1 / 448×448 输入 / FP16 / warmup=3 / benchmark=10

由于 448 版本 token 数是 224 版本的 4 倍（1024 vs 256），显存和计算量均显著增加。实际性能以 NPU 实测为准。

本文档记录 apple/aimv2-3B-patch14-448 在华为昇腾 Ascend910B4 上的推理适配与验证结果。

注意：本仓库为 aimv2-3B-patch14-448 分辨率的适配版本。448×448 输入相比 224 版本拥有 4 倍像素数量，token 数从 256 增加到 1024，适用于对细节要求更高的下游任务。

与 aimv2-3B-patch14-224 的适配流程完全一致，仅需修改：

# 转换权重
python3 aimv2_weight_convert.py

# 运行推理
python3 inference.py

测试条件：batch=1 / 448×448 输入 / FP16 / warmup=3 / benchmark=10

由于 448 版本 token 数是 224 版本的 4 倍（1024 vs 256），显存和计算量均显著增加。实际性能以 NPU 实测为准。