MoonViT-SO-400M 在昇腾 NPU 上的部署

1. 简介

MoonViT 是一款原生分辨率视觉编码器，它基于 SigLIP-SO-400M 进行初始化并持续预训练。为便于独立使用，我们从 moonshotai/Kimi-VL-A3B-Instruct 中分离出了 MoonViT 的实现代码与权重文件。

本文档旨在记录 MoonViT-SO-400M 在 昇腾 NPU 环境下的部署流程及验证结果。

2. 验证环境

组件	版本
`transformers`	`4.51.3`
`torch-npu`	`2.9.0.post1`
`torch`	`2.5.0`
`Pillow`	`11.1.0`

NPU：Ascend910_9362
模型路径：/opt/atomgit/moonshotai/MoonViT-SO-400M
模型设备：npu:0
模型精度：torch.bfloat16

3. 环境配置

3.1 依赖安装

pip install transformers pillow torch torchvision torch_npu

3.2 模型权重下载

从 ModelScope 下载（推荐）

modelscope download --model moonshotai/MoonViT-SO-400M --local_dir /opt/atomgit/moonshotai/MoonViT-SO-400M

从 AtomGit 下载

python3 -m atomgit download hf_mirrors/moonshotai/MoonViT-SO-400M -d /opt/atomgit/moonshotai/MoonViT-SO-400M

4. 推理验证

4.1 推理脚本

# inference.py
from PIL import Image
from transformers import AutoModel, AutoImageProcessor

model_path = "/opt/atomgit/moonshotai/MoonViT-SO-400M"
model = AutoModel.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoImageProcessor.from_pretrained(model_path, trust_remote_code=True)

image_path = "/opt/atomgit/moonshotai/MoonViT-SO-400M/figures/demo.png"
image = Image.open(image_path)

images_processed = processor(image, return_tensors="pt").to(dtype=model.dtype, device=model.device)
image_features: list = model(images_processed.pixel_values, images_processed.image_grid_hws)

print(f"dtype: {image_features[0].dtype}, shape: {image_features[0].shape}")

4.2 推理输出

INFO:root:Load model to npu:0.
dtype: torch.bfloat16, shape: torch.Size([1092, 4, 1152])

4.3 样例图片

demo

5. 性能评测

5.1 基准测试脚本

python benchmark.py

5.2 基准测试结果

测试条件：10 次迭代，预热 3 次

指标	数值
平均时间	`0.7027s`
最小时间	`0.5746s`
最大时间	`1.8435s`

6. 精度评测

6.1 精度验证脚本

python accuracy.py

6.2 精度验证结果

指标	数值	状态
向量相对误差	`0.000883`	✅ 通过
余弦相似度	`1.000000`	✅ 通过
均方误差（MSE）	`0.0000144042`	-
最大绝对差值	`2.968445`	-

结果：通过（误差 < 1%）

7. 注意事项

模型使用 device_map="auto" 会自动加载到 NPU 设备
精度验证通过 CPU 与 NPU 输出对比，误差小于 1%
如果使用 torch.compile，需要设置 TORCH_COMPILE_DISABLE=1 环境变量禁用（当前未使用）