m0_74196153/aimv2-3B-patch14-448
模型介绍文件和版本Pull Requests讨论分析

AIMv2-3B-patch14-448 昇腾 NPU 推理适配

1. 简介

本文档记录 apple/aimv2-3B-patch14-448 在华为昇腾 Ascend910B4 上的推理适配与验证结果。

AIMv2 (Apple Intelligence Foundation Model v2) 是一个多模态基础模型,可提取高维图像特征向量用于下游视觉任务。本仓库提供基于 PyTorch + torch_npu 的推理适配方案。

注意:本仓库为 aimv2-3B-patch14-448 分辨率的适配版本。448×448 输入相比 224 版本拥有 4 倍像素数量,token 数从 256 增加到 1024,适用于对细节要求更高的下游任务。

相关获取地址:

  • 权重下载地址(HuggingFace):https://huggingface.co/apple/aimv2-3B-patch14-448

2. 验证环境

组件版本
torch2.5.1
torch-npu2.5.1
transformers4.57.6
Pillow10.x
numpy1.24+
CANN8.5.1
  • NPU:Ascend910B4(1 逻辑卡)
  • 模型架构与 aimv2-3B-patch14-224 相同,仅 image_size 升级为 448
  • 输入尺寸:448×448

3. 适配方法

与 aimv2-3B-patch14-224 的适配流程完全一致,仅需修改:

  1. 将 config.json 中的 image_size 更新为 448
  2. 权重转换脚本复用同一份(架构相同)
  3. 预处理图像尺寸改为 448×448
# 转换权重
python3 aimv2_weight_convert.py

# 运行推理
python3 inference.py

4. 性能参考(估算)

测试条件:batch=1 / 448×448 输入 / FP16 / warmup=3 / benchmark=10

指标数值对比 224 版本
硬件Ascend910B4—
输入 Patch 数10244× (256→1024)
Mean Latency~105 ms约 4×
Throughput~9.5 img/s约 1/4

由于 448 版本 token 数是 224 版本的 4 倍(1024 vs 256),显存和计算量均显著增加。实际性能以 NPU 实测为准。

5. 注意事项

  • 448 分辨率需要更多显存,建议使用 FP16 推理
  • 权重转换代码与 224 版本共用
  • 如果遇到显存不足,可尝试开启梯度检查点或在 CPU 上运行部分预处理
下载使用量0