d
dingdang666/VTP-Base-f16d64-NPU
模型介绍文件和版本Pull Requests讨论分析

VTP-Base-f16d64 on Ascend NPU

1. 简介

本文档记录 VTP-Base-f16d64(Visual Tokenizer Pre-training,MiniMax)在昇腾 NPU(Ascend 910B3)环境的适配部署与精度验证结果。

VTP-Base 视觉编码器参数量约 48.5M,嵌入维度 768,12 头注意力,输出 64 维瓶颈特征向量。本项目完成该模型在昇腾 NPU 上的推理适配,验证 NPU 与 CPU 结果的精度误差 < 1%。

相关地址:

  • 权重下载地址(HuggingFace):https://huggingface.co/MiniMaxAI/VTP-Base-f16d64
  • 原始代码:https://github.com/MiniMax-AI/VTP
  • 适配仓库:https://gitcode.com/dingdang666/VTP-Base-f16d64-NPU

2. 验证环境

组件版本
Python3.11.x
PyTorch2.10.0+cpu
torch_npu2.10.0
CANN8.5.1
NPU 硬件Ascend 910B3

3. 模型信息

项目值
模型架构ViT-Base (VTP vision encoder)
视觉编码器参数量~48.5M
特征维度64 (bottleneck)
Layers12
Attention Heads12
Embed Dim768
输入尺寸3×256×256
权重格式safetensors
许可证Modified MIT

4. Conda 环境安装

conda create -n vtp-base python=3.11 -y
conda activate vtp-base
pip install torch==2.10.0 torchvision==0.25.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install safetensors pillow --index-url https://repo.huaweicloud.com/repository/pypi/simple/

5. 推理执行

python3 inference.py --model_path /path/to/VTP-Base-f16d64 --image_path /path/to/img.jpg
python3 inference.py ... --device cpu
python3 benchmark.py --model_path /path/to/VTP-Base-f16d64

6. 参数说明

inference.py默认值
--devicenpu:0
benchmark.py默认值
--npu_devicenpu:0
--num_warmup3

7. 精度评测结果

输出相对误差余弦相似度最大误差平均误差
features0.004569%1.0000000000——
指标实测阈值状态
相对误差0.0046%< 1%PASS
余弦相似度1.000000> 0.99PASS

8. 性能数据

操作耗时
CPU(FP32)3.08s
NPU(FP32,3轮预热)0.29s
加速比10.64x

9. 注意事项

  1. 使用自定义模型架构(RMSNorm + SwiGLU + Attention),脚本内嵌无需额外依赖。
  2. 权重加载自动匹配 trunk.* 前缀。
下载使用量0