NVIDIA RADIO-L on Huawei Ascend NPU

1. 简介

本文档记录 nvidia/RADIO-L 在华为昇腾 Ascend 910B4 NPU 上的适配、推理部署与精度验证结果。

RADIO (Reduce All Domains Into One) 是 NVIDIA Research 发布的视觉基础模型系列。RADIO 采用多教师知识蒸馏 (multi-teacher knowledge distillation)，融合了 CLIP、SigLIP、DINOv2、SAM 等多个视觉模型的表征能力。模型输出两个张量：

summary：全局图像表征，类似 ViT 的 CLS token，形状为 (B, C)
features：空间局部特征，适用于语义分割、物体检测等密集预测任务，形状为 (B, T, D)

RADIO-L 是 RADIO v2.5 系列的 Large 版本，基于 ViT-Large 架构，参数量约 320M。相比 RADIO-B，RADIO-L 具有更强的表征能力，适用于更复杂的视觉理解任务。

适配要点：

使用 transformers.AutoModel 加载模型，通过 trust_remote_code 加载模型自定义代码
兼容 timm 库的新型 transformers 版本（4.57.x），需对 VisionTransformer 等类添加 _initialize_weights 兼容补丁
模型为纯前馈视觉模型，无随机组件，NPU 推理结果应与 CPU 保持高度一致

2. 验证环境

组件	版本
`CANN`	`8.5.1`
`torch`	`2.9.0`
`torch-npu`	`2.9.0.post1`
`transformers`	`4.57.6`
`timm`	`1.0.27`
`Pillow`	`12.2.0`
`einops`	`0.8.2`

NPU：Ascend 910B4（1 卡，32GB HBM）
操作系统：Linux 5.10.0 aarch64

3. 快速开始

3.1 环境准备

# 安装依赖
pip install torch transformers timm Pillow einops -i https://pypi.tuna.tsinghua.com/simple

# 确保 CANN 和 torch_npu 已正确安装

3.2 下载模型

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download nvidia/RADIO-L \
  --local-dir ./RADIO-L --local-dir-use-symlinks False

3.3 Python API 使用

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

model_path = "./RADIO-L"
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)
model.eval().to("npu")

processor = CLIPImageProcessor.from_pretrained(model_path)
image = Image.open("example.jpg").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values
pixel_values = pixel_values.to("npu")

with torch.no_grad():
    summary, features = model(pixel_values)

# summary: (1, 4608) - 全局图像表征
# features: (1, 2304, 1536) - 空间局部特征

# 转换为空间张量格式
from einops import rearrange
patch_size = 16
h, w = pixel_values.shape[-2], pixel_values.shape[-1]
spatial_features = rearrange(features, 'b (h w) d -> b d h w',
                             h=h // patch_size, w=w // patch_size)
# spatial_features: (1, 1536, 48, 48)

3.4 运行推理脚本

python inference.py --model_path ./RADIO-L --image example.jpg

4. 精度评测

4.1 评测方法

RADIO-L 是确定性视觉模型，在相同权重和输入下，CPU 与 NPU 应产生高度一致的输出。

评测采用 5 种测试图像：纯红、纯绿、纯蓝、纯灰、RGB 渐变，覆盖不同颜色分布与空间结构。详细评测方法同 RADIO-B。

4.2 评测结果

综合指标

指标	Summary	Features
SNR (平均)	42.05 dB	44.44 dB
SNR (最低)	41.82 dB	44.12 dB
余弦相似度 (平均)	0.999973	0.999986
MAE (平均)	0.0015	0.0012
Top-1% 相对误差	< 1.9%	< 1.1%
Top-10% 相对误差	< 2.4%	< 3.5%
NPU 显存占用		1.57 GB

SNR > 40 dB 表示信号强度是噪声的 100 倍以上。余弦相似度 > 0.9999 表示 NPU 输出方向与 CPU 几乎完全一致。

各图像详细结果

测试图像	Summary SNR	Feat SNR	Summary Cos	Feat Cos	延迟 (s)
solid_red	42.09 dB	44.87 dB	0.999974	0.999984	0.0583
solid_green	42.00 dB	44.48 dB	0.999973	0.999986	0.0568
solid_blue	41.82 dB	44.12 dB	0.999972	0.999986	0.0557
gray	41.88 dB	44.19 dB	0.999976	0.999989	0.0562
gradient	42.47 dB	44.55 dB	0.999970	0.999984	0.0557

所有测试图像的延迟高度稳定（0.056–0.058s），首次推理也无需明显编译时间（因 RADIO-L 已通过先前加载预热）。

Top-K 相对误差详情 (Summary)

测试图像	Top-1%	Top-5%	Top-10%	Top-50%
solid_red	1.84%	1.84%	1.97%	3.92%
solid_green	0.69%	1.04%	1.89%	3.86%
solid_blue	1.64%	1.64%	2.35%	4.01%
gray	0.61%	1.81%	2.20%	4.23%
gradient	1.11%	1.35%	2.18%	4.40%

关键结论：最显著的 1% 特征值的相对误差 < 1.9%，Top-5% < 1.9%，满足视觉特征提取任务的精度要求。

5. 性能参考

测试条件：单卡 Ascend 910B4，768×768 输入图像，float32 推理。

指标	数值
推理延迟	0.056 s
参数量	319,881,216
NPU 显存占用	1.57 GB
输入分辨率	768 × 768
Patch Size	16
Summary 维度	(1, 4608)
Features 维度	(1, 2304, 1536)

6. 模型信息

属性	值
架构	ViT-Large
版本	radio_v2.5-l
教师模型	CLIP, SigLIP, DINOv2, SAM
推荐分辨率	768 × 768
最大分辨率	2048 × 2048
Patch Size	16

7. 注意事项

transformers 兼容性：推理脚本已内置 timm 兼容补丁，正常使用不受影响。
输出维度：RADIO-L 的 summary 输出 4608 维，features 每 token 1536 维，分别是 RADIO-B 的 2 倍。下游任务中需注意维度匹配。
显存占用：1.57 GB，在 32GB NPU 上可同时运行多个实例或与其他模型共存。
相对误差指标说明：评测中使用 Top-K 相对误差。接近零的元素对相对误差极度敏感，Top-1% 显著特征的相对误差是最可靠的精度判断依据。

精度结论：余弦相似度为 0.999973，精度误差（1 - 余弦相似度）为 0.00270%，低于 1% 要求。精度验证通过。

8. 引用

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490-12500}
}

适配方：Ascend-SACT
标签：#NPU #Ascend #RADIO #Vision #Feature-Extraction #ViT

精度结论

基于现有评测数据，CPU 与 NPU 的余弦相似度精度误差为 0.0027%，小于 1% 的精度要求。

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。