VTP-Base-f16d64 on Ascend NPU

1. 简介

本文档记录 VTP-Base-f16d64（Visual Tokenizer Pre-training，MiniMax）在昇腾 NPU（Ascend 910B3）环境的适配部署与精度验证结果。

VTP-Base 视觉编码器参数量约 48.5M，嵌入维度 768，12 头注意力，输出 64 维瓶颈特征向量。本项目完成该模型在昇腾 NPU 上的推理适配，验证 NPU 与 CPU 结果的精度误差 < 1%。

2. 验证环境

组件	版本
Python	3.11.x
PyTorch	2.10.0+cpu
torch_npu	2.10.0
CANN	8.5.1
NPU 硬件	Ascend 910B3

3. 模型信息

项目	值
模型架构	ViT-Base (VTP vision encoder)
视觉编码器参数量	~48.5M
特征维度	64 (bottleneck)
Layers	12
Attention Heads	12
Embed Dim	768
输入尺寸	3×256×256
权重格式	safetensors
许可证	Modified MIT

4. Conda 环境安装

conda create -n vtp-base python=3.11 -y
conda activate vtp-base
pip install torch==2.10.0 torchvision==0.25.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install safetensors pillow --index-url https://repo.huaweicloud.com/repository/pypi/simple/

5. 推理执行

python3 inference.py --model_path /path/to/VTP-Base-f16d64 --image_path /path/to/img.jpg
python3 inference.py ... --device cpu
python3 benchmark.py --model_path /path/to/VTP-Base-f16d64

6. 参数说明

inference.py	默认值
`--device`	npu:0

benchmark.py	默认值
`--npu_device`	npu:0
`--num_warmup`	3

7. 精度评测结果

输出	相对误差	余弦相似度	最大误差	平均误差
features	0.004569%	1.0000000000	—	—

指标	实测	阈值	状态
相对误差	0.0046%	< 1%	PASS
余弦相似度	1.000000	> 0.99	PASS

8. 性能数据

操作	耗时
CPU（FP32）	3.08s
NPU（FP32，3轮预热）	0.29s
加速比	10.64x

9. 注意事项

使用自定义模型架构（RMSNorm + SwiGLU + Attention），脚本内嵌无需额外依赖。
权重加载自动匹配 trunk.* 前缀。

1. 简介

本文档记录 VTP-Base-f16d64（Visual Tokenizer Pre-training，MiniMax）在昇腾 NPU（Ascend 910B3）环境的适配部署与精度验证结果。

相关地址：

组件

版本

Python

3.11.x

PyTorch

2.10.0+cpu

torch_npu

2.10.0

CANN

8.5.1

NPU 硬件

Ascend 910B3

项目

值

模型架构

ViT-Base (VTP vision encoder)

视觉编码器参数量

~48.5M

特征维度

64 (bottleneck)

Layers

Attention Heads

Embed Dim

768

输入尺寸

3×256×256

权重格式

safetensors

许可证

Modified MIT

4. Conda 环境安装

conda create -n vtp-base python=3.11 -y
conda activate vtp-base
pip install torch==2.10.0 torchvision==0.25.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install safetensors pillow --index-url https://repo.huaweicloud.com/repository/pypi/simple/

inference.py

默认值

--device

npu:0

benchmark.py

默认值

--npu_device

npu:0

--num_warmup

输出

相对误差

余弦相似度

最大误差

平均误差

features

0.004569%

1.0000000000

—

指标

实测

阈值

状态

相对误差

0.0046%

< 1%

PASS

余弦相似度

1.000000

> 0.99

PASS

操作

耗时

CPU（FP32）

3.08s

NPU（FP32，3轮预热）

0.29s

加速比

10.64x