SqueezeNet-NPU

#+NPU #+昇腾 #+Ascend910 #+CV #+图像分类 #+SqueezeNet #+轻量级网络 #+CNN

模型介绍

本仓库包含了 SqueezeNet 在华为昇腾 Ascend910 NPU 上的适配版本，支持 CPU 和 NPU 两种推理方式，并提供了完整的精度验证流程。

SqueezeNet 是一种轻量级卷积神经网络，由 UC Berkeley 和 Stanford 的研究人员于 2016 年提出。其核心创新是使用 Fire Module（包含 squeeze 和 expand 层）来大幅减少模型参数量，同时在 ImageNet 上保持与 AlexNet 相当的分类精度。SqueezeNet 的参数量只有 AlexNet 的 1/50，模型大小不到 5MB。

原始模型地址: AIBSECO/Squeezenet

任务类型

图像分类（Image Classification），1000 类 ImageNet 分类

模型框架

PyTorch（torchvision）

输入格式

图像（Image），RGB 格式，预处理后为 224×224 张量

输出格式

1000 个类别的分类 logits 和概率分数

依赖环境

依赖	版本
Python	>= 3.8
PyTorch	>= 2.0.0
torch_npu	>= 2.0.0
torchvision	>= 0.15.0
NumPy	>= 1.20.0
Pillow	>= 9.0.0

NPU 适配说明

本适配基于华为 Ascend910 NPU（CANN 8.5.1，显存 64GB）完成。适配内容包括：

使用 torchvision 加载 SqueezeNet 预训练模型（squeezenet1_0）
通过 model.to("npu:0") 将模型权重迁移到 NPU 设备实现加速推理
对输入张量进行设备迁移以确保在 NPU 上正确运行
实现了 CPU 与 NPU 推理结果的精度对比验证

环境准备

# 安装基础依赖
pip install torch torchvision torch_npu numpy Pillow -i https://mirrors.aliyun.com/pypi/simple/

# 设置 NPU 环境变量
export ASCEND_RT_VISIBLE_DEVICES=0

推理命令

CPU 推理：

python3 inference.py --device cpu

NPU 推理：

python3 inference.py --device npu

CPU vs NPU 精度对比：

python3 compare_cpu_npu.py

部署和推理方法

方式一：直接运行推理脚本

# CPU 推理
python3 inference.py --device cpu

# NPU 推理
python3 inference.py --device npu

方式二：自定义 NPU 推理

import torch
from torchvision.models import squeezenet1_0, SqueezeNet1_0_Weights
from PIL import Image
from torchvision import transforms

# 加载模型
model = squeezenet1_0(weights=SqueezeNet1_0_Weights.DEFAULT)
model = model.to("npu:0")

# 图像预处理
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])
image = Image.open("test_image.jpg").convert("RGB")
input_tensor = transform(image).unsqueeze(0).to("npu:0")

# 推理
with torch.no_grad():
    output = model(input_tensor)

probs = torch.nn.functional.softmax(output, dim=-1)
print(probs)

CPU/NPU 精度测试方法

使用 torchvision 加载 SqueezeNet 预训练模型
在 CPU 上执行推理，记录输出分数和标签
将模型迁移到 NPU 设备，在 NPU 上执行相同推理
对比 CPU 与 NPU 输出的差异

关键比较指标：

最大绝对误差（Max Absolute Difference）：逐元素比较输出分数的最大差异
平均绝对误差（Mean Absolute Difference）：逐元素比较输出分数的平均差异
相对误差（Relative Error）：最大绝对误差 / 最大分数值
余弦相似度（Cosine Similarity）：衡量输出向量的方向一致性
Top-1 匹配率：最高概率标签是否一致
Top-5 一致率：前5个预测标签的重叠比例

CPU/NPU 精度测试结果

指标	值
最大绝对误差	2.924681e-03
平均绝对误差	6.615059e-04
相对误差	0.0375%
余弦相似度	0.9999998808
最大概率绝对误差	7.233024e-05
平均概率绝对误差	7.356362e-07
Top-1 标签匹配	True
Top-5 一致率	100%
CPU 推理耗时	62.88 ms
NPU 推理耗时	160.08 ms

Top-5 分类结果对比

排名	CPU 类别	CPU 分数	NPU 类别	NPU 分数
Top-1	poncho	0.067292	poncho	0.067220
Top-2	dishcloth	0.022360	dishcloth	0.022374
Top-3	umbrella	0.019706	umbrella	0.019690
Top-4	cardigan	0.018528	cardigan	0.018542
Top-5	cottontail rabbit	0.016768	cottontail rabbit	0.016774

精度结论

NPU 与 CPU 推理结果误差 < 1%（实际相对误差为 0.0375%），精度完全满足要求。余弦相似度为 0.9999998808，Top-1 和 Top-5 结果完全一致，NPU 推理结果与 CPU 推理结果高度一致。

性能测试结果

平台	推理耗时 (ms)	加速比
CPU	62.88	1.00x
NPU (Ascend910)	160.08	0.39x

注：SqueezeNet 模型较小（参数量 1.2M），在 NPU 上的推理耗时包含算子下发和数据传输开销，导致单次推理耗时高于 CPU。对于批量推理场景或更大模型，NPU 的加速效果会更明显。

运行截图

推理截图

精度对比截图

精度对比

模型标签

#+NPU #+昇腾 #+Ascend910 #+CV #+图像分类 #+SqueezeNet #+轻量级网络 #+CNN

SqueezeNet-NPU

#+NPU #+昇腾 #+Ascend910 #+CV #+图像分类 #+SqueezeNet #+轻量级网络 #+CNN

模型介绍

本仓库包含了 SqueezeNet 在华为昇腾 Ascend910 NPU 上的适配版本，支持 CPU 和 NPU 两种推理方式，并提供了完整的精度验证流程。

原始模型地址: AIBSECO/Squeezenet

任务类型

图像分类（Image Classification），1000 类 ImageNet 分类

模型框架

PyTorch（torchvision）

输入格式

图像（Image），RGB 格式，预处理后为 224×224 张量

输出格式

1000 个类别的分类 logits 和概率分数

依赖环境

依赖	版本
Python	>= 3.8
PyTorch	>= 2.0.0
torch_npu	>= 2.0.0
torchvision	>= 0.15.0
NumPy	>= 1.20.0
Pillow	>= 9.0.0

NPU 适配说明

本适配基于华为 Ascend910 NPU（CANN 8.5.1，显存 64GB）完成。适配内容包括：

使用 torchvision 加载 SqueezeNet 预训练模型（squeezenet1_0）
通过 model.to("npu:0") 将模型权重迁移到 NPU 设备实现加速推理
对输入张量进行设备迁移以确保在 NPU 上正确运行
实现了 CPU 与 NPU 推理结果的精度对比验证

环境准备

# 安装基础依赖
pip install torch torchvision torch_npu numpy Pillow -i https://mirrors.aliyun.com/pypi/simple/

# 设置 NPU 环境变量
export ASCEND_RT_VISIBLE_DEVICES=0

推理命令

CPU 推理：

python3 inference.py --device cpu

NPU 推理：

python3 inference.py --device npu

CPU vs NPU 精度对比：

python3 compare_cpu_npu.py

部署和推理方法

方式一：直接运行推理脚本

# CPU 推理
python3 inference.py --device cpu

# NPU 推理
python3 inference.py --device npu

方式二：自定义 NPU 推理

import torch
from torchvision.models import squeezenet1_0, SqueezeNet1_0_Weights
from PIL import Image
from torchvision import transforms

# 加载模型
model = squeezenet1_0(weights=SqueezeNet1_0_Weights.DEFAULT)
model = model.to("npu:0")

# 图像预处理
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])
image = Image.open("test_image.jpg").convert("RGB")
input_tensor = transform(image).unsqueeze(0).to("npu:0")

# 推理
with torch.no_grad():
    output = model(input_tensor)

probs = torch.nn.functional.softmax(output, dim=-1)
print(probs)

CPU/NPU 精度测试方法

使用 torchvision 加载 SqueezeNet 预训练模型
在 CPU 上执行推理，记录输出分数和标签
将模型迁移到 NPU 设备，在 NPU 上执行相同推理
对比 CPU 与 NPU 输出的差异

关键比较指标：

最大绝对误差（Max Absolute Difference）：逐元素比较输出分数的最大差异
平均绝对误差（Mean Absolute Difference）：逐元素比较输出分数的平均差异
相对误差（Relative Error）：最大绝对误差 / 最大分数值
余弦相似度（Cosine Similarity）：衡量输出向量的方向一致性
Top-1 匹配率：最高概率标签是否一致
Top-5 一致率：前5个预测标签的重叠比例

CPU/NPU 精度测试结果

指标	值
最大绝对误差	2.924681e-03
平均绝对误差	6.615059e-04
相对误差	0.0375%
余弦相似度	0.9999998808
最大概率绝对误差	7.233024e-05
平均概率绝对误差	7.356362e-07
Top-1 标签匹配	True
Top-5 一致率	100%
CPU 推理耗时	62.88 ms
NPU 推理耗时	160.08 ms

Top-5 分类结果对比

排名	CPU 类别	CPU 分数	NPU 类别	NPU 分数
Top-1	poncho	0.067292	poncho	0.067220
Top-2	dishcloth	0.022360	dishcloth	0.022374
Top-3	umbrella	0.019706	umbrella	0.019690
Top-4	cardigan	0.018528	cardigan	0.018542
Top-5	cottontail rabbit	0.016768	cottontail rabbit	0.016774

精度结论

性能测试结果

平台	推理耗时 (ms)	加速比
CPU	62.88	1.00x
NPU (Ascend910)	160.08	0.39x

注：SqueezeNet 模型较小（参数量 1.2M），在 NPU 上的推理耗时包含算子下发和数据传输开销，导致单次推理耗时高于 CPU。对于批量推理场景或更大模型，NPU 的加速效果会更明显。

运行截图

推理截图

精度对比截图

精度对比

模型标签

#+NPU #+昇腾 #+Ascend910 #+CV #+图像分类 #+SqueezeNet #+轻量级网络 #+CNN