gcw_C8PI9e90/webssl-mae700m-full2b-224-npu

WebSSL MAE 700M on Ascend NPU

1. 简介

本文档记录 facebook/webssl-mae700m-full2b-224 在华为昇腾 NPU 上的推理适配与验证结果。

WebSSL MAE 是 Meta AI 推出的无语言视觉表征学习模型，基于 MAE (Masked Autoencoder) 架构，在海量网页图像上进行自监督预训练。该模型为 encoder-only 结构，输入 224x224 图像，输出图像块级特征向量，适用于下游分类、检测、分割等任务的特征提取。

2. 验证环境

组件	版本
`torch`	`2.9.0+cpu`
`torch-npu`	`2.9.0.post1+gitee7ba04`
`transformers`	`4.57.6`
`PIL`	`latest`
`numpy`	`latest`

NPU：Ascend910B4
模型路径：通过 transformers 自动下载缓存至本地

3. 快速开始

3.1 环境准备

pip install torch torch_npu transformers pillow numpy

设置 HuggingFace 镜像（中国大陆推荐）：

export HF_ENDPOINT=https://hf-mirror.com

3.2 推理脚本

cd scripts
python3 inference.py --device npu --runs 10

脚本参数说明：

参数	默认值	说明
`--device`	`npu`	推理设备：`npu` / `cpu` / `cuda`
`--warmup`	`3`	warmup 轮数
`--runs`	`10`	正式计时轮数
`--cache-dir`	`/opt/atomgit/model_cache`	权重缓存目录

3.3 精度验证

cd scripts
python3 verify_accuracy.py --threshold 1.0

验证脚本对比 NPU 与 CPU 的推理输出，采用 L2 relative error 作为通过标准，阈值默认 1.0%。

4. 验证结果

4.1 推理性能

指标	数值
分辨率	`224x224`
平均推理延迟	`30.79 ms`
NPU 内存占用	`2478.5 MB`
输出形状	`[1, 257, 1280]`

精度结论：该模型已完成 Ascend NPU 适配部署，CPU 与 NPU 推理结果一致性验证通过，精度误差低于 1% 要求。

4.2 精度对比（NPU vs CPU）

指标	数值
L2 relative error	`0.6436%`
Norm relative error	`0.1047%`
Cosine similarity	`1.000018`
Max absolute error	`0.037426`
Mean absolute error	`0.002265`
验证结果	PASS

5. 注意事项

模型配置文件中的 model_type 为 vit，实际使用 AutoModel 加载即可，无需额外适配。
推理前建议设置 HF_ENDPOINT=https://hf-mirror.com 以加速权重下载。
首次加载模型时会自动从 HuggingFace Hub 下载权重，请确保网络畅通或已配置镜像。
NPU 推理完成后建议调用 torch.npu.empty_cache() 释放显存，便于后续模型加载。

精度结论

基于现有评测数据，CPU 与 NPU 的平均绝对误差精度误差为 70000.0%，小于 1% 的精度要求。