本文档记录 apple/aimv2-3B-patch14-224 在华为昇腾 Ascend910B4 上的推理适配与验证结果。
AIMv2 (Apple Intelligence Foundation Model v2) 是一个多模态基础模型,可提取高维图像特征向量用于下游视觉任务。本仓库提供基于 PyTorch + torch_npu 的推理适配方案。
相关获取地址:
| 组件 | 版本 |
|---|---|
torch | 2.5.1 |
torch-npu | 2.5.1 |
transformers | 4.57.6 |
Pillow | 10.x |
numpy | 1.24+ |
| CANN | 8.5.1 |
Ascend910B4(1 逻辑卡)~/.cache/modelscope/hub/models/apple/aimv2-3B-patch14-224224×224AIMv2 官方权重使用 safetensors 格式,需转换为 PyTorch state_dict 加载到 transformers 模型中。
python3 aimv2_weight_convert.py转换后生成 converted_model.pth,包含 173 组参数全部映射成功。
已验证通过的推理脚本 inference.py:
python3 inference.py核心流程:
AutoConfig.from_pretrained + AutoModel.from_config 创建模型converted_model.pth 权重(strict=True)model.to('npu:0').to(torch.float16) 迁移到 NPU[1, 256, 3072]测试条件:batch=1 / 224×224 输入 / FP16 / warmup=3 / benchmark=10
| 指标 | 数值 |
|---|---|
| 硬件 | Ascend910B4 |
| Mean Latency | 25.3 ms |
| Median Latency | 25.0 ms |
| P99 Latency | 27.2 ms |
| Min Latency | 24.7 ms |
| Max Latency | 27.4 ms |
| Throughput | 39.50 img/s |
| Feature Dim | 256 × 3072 |
| 指标 | 数值 |
|---|---|
| Feature Norm | 4652.0 |
| Feature Mean | 0.0082 |
| Feature Std | 5.2461 |
| Pooled Norm | 98.69 |
AutoModel.from_config 而非 from_pretrained 创建模型,因为 safetensors 权重需要先转换trust_remote_code=True 加载自定义 config