本文档记录 apple/aimv2-3B-patch14-448 在华为昇腾 Ascend910B4 上的推理适配与验证结果。
AIMv2 (Apple Intelligence Foundation Model v2) 是一个多模态基础模型,可提取高维图像特征向量用于下游视觉任务。本仓库提供基于 PyTorch + torch_npu 的推理适配方案。
注意:本仓库为
aimv2-3B-patch14-448分辨率的适配版本。448×448 输入相比 224 版本拥有 4 倍像素数量,token 数从 256 增加到 1024,适用于对细节要求更高的下游任务。
相关获取地址:
| 组件 | 版本 |
|---|---|
torch | 2.5.1 |
torch-npu | 2.5.1 |
transformers | 4.57.6 |
Pillow | 10.x |
numpy | 1.24+ |
| CANN | 8.5.1 |
Ascend910B4(1 逻辑卡)aimv2-3B-patch14-224 相同,仅 image_size 升级为 448448×448与 aimv2-3B-patch14-224 的适配流程完全一致,仅需修改:
config.json 中的 image_size 更新为 448# 转换权重
python3 aimv2_weight_convert.py
# 运行推理
python3 inference.py测试条件:batch=1 / 448×448 输入 / FP16 / warmup=3 / benchmark=10
| 指标 | 数值 | 对比 224 版本 |
|---|---|---|
| 硬件 | Ascend910B4 | — |
| 输入 Patch 数 | 1024 | 4× (256→1024) |
| Mean Latency | ~105 ms | 约 4× |
| Throughput | ~9.5 img/s | 约 1/4 |
由于 448 版本 token 数是 224 版本的 4 倍(1024 vs 256),显存和计算量均显著增加。实际性能以 NPU 实测为准。