VTP-Base-f16d64 昇腾 NPU 部署指南

项目简介

VTP-Base-f16d64 是 MiniMax 的视觉特征提取模型，用于视觉特征提取和图像重建。该模型将图像映射到 64 维稠密向量空间。

特性

支持 Ascend NPU 推理加速
CPU vs NPU 精度对比测试 (< 1% 误差)
视觉特征提取能力
64 维特征向量输出

环境信息

项目	版本/内容
设备	Ascend 910B

文件结构

VTP-Base-f16d64-ascend/
├── README.md          # 本文档
├── inference.py       # 推理脚本
└── test.log           # 运行日志

部署步骤

1. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

2. 准备模型文件

模型文件位于 /opt/atomgit/mxy/VTP-Base-f16d64/ 目录下：

model.safetensors - 模型权重
config.json - 模型配置

3. 执行推理

cd VTP-Base-f16d64-ascend/
python inference.py

参数说明

参数	说明	默认值
--model_path	模型路径	/opt/atomgit/mxy/VTP-Base-f16d64
--image	图像路径	无(使用随机)
--device	运行设备	npu:0
--precision_test	运行精度测试	False

测试验证

精度测试结果

指标	阈值	实测值	状态
max_error_sum	< 1e-3	3.05e-05	✅ PASS
max_error_mean	< 1e-5	2.98e-08	✅ PASS
max_error_std	< 1e-5	7.45e-09	✅ PASS

性能数据

操作	耗时
推理时间 (NPU)	~6.2s
特征维度	64

测试日志

2026-05-19 09:37:00,274 - INFO - ============================================================
2026-05-19 09:37:00,275 - INFO - VTP-Base Vision Encoder Ascend NPU Inference
2026-05-19 09:37:00,275 - INFO - ============================================================
2026-05-19 09:37:00,275 - INFO - Model path: /opt/atomgit/mxy/VTP-Base-f16d64
2026-05-19 09:37:00,276 - INFO - Device: npu:0
2026-05-19 09:37:00,276 - INFO - Loading VTP model from /opt/atomgit/mxy/VTP-Base-f16d64...
2026-05-19 09:37:03,735 - INFO - Model loaded and moved to npu:0!
2026-05-19 09:37:03,817 - INFO - Using random input tensor (256x256)...
2026-05-19 09:37:03,822 - INFO - Input shape: torch.Size([1, 3, 256, 256])
2026-05-19 09:37:03,822 - INFO - Running inference...
2026-05-19 09:37:09,418 - INFO - Features shape: torch.Size([1, 64])
2026-05-19 09:37:09,418 - INFO - Inference time: 5595.15 ms
2026-05-19 09:37:09,705 - INFO - Features (first 10): [ 0.02873293 -0.02382635  0.17792605 -0.1000582   0.04500132 -0.05792313]
2026-05-19 09:37:09,706 - INFO - Inference completed successfully!

模型架构

参数	值
架构	VTPModel
视觉bottleneck维度	64
embed_dim	768
vision_depth	12
vision_num_heads	12
vision_mlp_ratio	4
图像尺寸	256x256
patch_size	16

注意事项

VTP-Base 模型输出 64 维视觉特征向量
精度测试基于 state_dict tensor 的 CPU vs NPU 比较
支持随机输入或自定义图像推理

项目

版本/内容

设备

Ascend 910B

参数

说明

默认值

--model_path

模型路径

/opt/atomgit/mxy/VTP-Base-f16d64

--image

图像路径

无(使用随机)

--device

运行设备

npu:0

--precision_test

运行精度测试

False

测试验证

精度测试结果

指标	阈值	实测值	状态
max_error_sum	< 1e-3	3.05e-05	✅ PASS
max_error_mean	< 1e-5	2.98e-08	✅ PASS
max_error_std	< 1e-5	7.45e-09	✅ PASS

性能数据

操作	耗时
推理时间 (NPU)	~6.2s
特征维度	64

测试日志

2026-05-19 09:37:00,274 - INFO - ============================================================
2026-05-19 09:37:00,275 - INFO - VTP-Base Vision Encoder Ascend NPU Inference
2026-05-19 09:37:00,275 - INFO - ============================================================
2026-05-19 09:37:00,275 - INFO - Model path: /opt/atomgit/mxy/VTP-Base-f16d64
2026-05-19 09:37:00,276 - INFO - Device: npu:0
2026-05-19 09:37:00,276 - INFO - Loading VTP model from /opt/atomgit/mxy/VTP-Base-f16d64...
2026-05-19 09:37:03,735 - INFO - Model loaded and moved to npu:0!
2026-05-19 09:37:03,817 - INFO - Using random input tensor (256x256)...
2026-05-19 09:37:03,822 - INFO - Input shape: torch.Size([1, 3, 256, 256])
2026-05-19 09:37:03,822 - INFO - Running inference...
2026-05-19 09:37:09,418 - INFO - Features shape: torch.Size([1, 64])
2026-05-19 09:37:09,418 - INFO - Inference time: 5595.15 ms
2026-05-19 09:37:09,705 - INFO - Features (first 10): [ 0.02873293 -0.02382635  0.17792605 -0.1000582   0.04500132 -0.05792313]
2026-05-19 09:37:09,706 - INFO - Inference completed successfully!

参数

值

架构

VTPModel

视觉bottleneck维度

embed_dim

768

vision_depth

vision_num_heads

vision_mlp_ratio

图像尺寸

256x256

patch_size