cube-ocr-npu:可用于在昇腾NPU上实现高效OCR任务，支持文档方向分类、表格分类及结构识别。项目完成多个子模型NPU适配，推理速度较CPU提升8-10倍，精度误差小于1%，提供CPU/NPU推理及精度对比工具。【此简介由AI生成】 - AtomGit AI社区

cube-ocr 昇腾 NPU 适配

模型介绍

cube-ocr 是一个基于 MinerU 的 OCR 工具包，包含多个子模型，支持文档方向分类、表格分类、表格结构识别和表格识别等功能。

原始模型地址

ModelScope: Logosdata/cube-ocr

子模型列表

子模型	任务类型	模型架构	输入形状	输出形状
OriCls (ori)	文档方向分类	PP-LCNet x1.0	(1, 3, 224, 224)	(1, 4)
TabCls (tab_cls)	表格分类	PP-LCNet x1.0	(1, 3, 224, 224)	(1, 2)
Unet (unet)	表格结构识别	Unet	(1, 3, 480, 480)	(1, 1, 480, 480)
Slanet-Plus (slanet)	表格识别	Slanet-Plus	(1, 3, 480, 480)	-

适配状态

子模型	NPU 适配	状态
PP-LCNet 文档方向分类器	已完成	✅
PP-LCNet 表格分类器	已完成	✅
Unet 表格结构识别	已完成	✅
Slanet-Plus 表格识别	转换失败 (ATC 解析错误，不支持的算子)	❌

任务类型

OriCls / TabCls: 图像分类型任务
Unet: 图像分割型任务
Slanet-Plus: 图像分割型任务

模型框架

框架: ONNX / PaddlePaddle → OM (Ascend)
模型文件:
- OriCls: PP-LCNet_x1_0_doc_ori.onnx → pplcnet_ori.om
- TabCls: PP-LCNet_x1_0_table_cls.onnx → pplcnet_tab_cls.om
- Unet: unet.onnx → unet.om

输入格式

图像: 3通道 RGB 图像
- 分类模型 (OriCls/TabCls): Resize 到 224×224
- 分割模型 (Unet): Resize 到 480×480
归一化: 除以 255，ImageNet 均值标准差归一化 (mean=[0.485,0.456,0.406], std=[0.229,0.224,0.225])
数据排布: NCHW

输出格式

OriCls: 4 维分类 logits（对应 4 个方向类别）
TabCls: 2 维分类 logits（是/否为表格）
Unet: 单通道分割特征图

依赖环境

Python 3.8+
onnxruntime (CPU 推理)
numpy
Pillow
Ascend CANN 8.5.1 (NPU 推理)
昇腾 910 NPU

NPU 适配说明

本模型已通过以下步骤完成昇腾 NPU 适配：

使用 ATC (Ascend Tensor Compiler) 将 ONNX 模型转换为 OM 格式
使用 AscendCL (C++ API via ctypes) 在 NPU 上加载并执行模型
CPU 与 NPU 推理结果对比验证精度

环境准备

安装依赖

pip install onnxruntime numpy Pillow

模型转换 (ONNX → OM)

# 文档方向分类器
atc --model=PP-LCNet_x1_0_doc_ori.onnx \
    --output=pplcnet_ori \
    --input_shape="x:1,3,224,224" \
    --soc_version=Ascend910_9362 \
    --framework=5

# 表格分类器
atc --model=PP-LCNet_x1_0_table_cls.onnx \
    --output=pplcnet_tab_cls \
    --input_shape="x:1,3,224,224" \
    --soc_version=Ascend910_9362 \
    --framework=5

# Unet 表格结构识别
atc --model=unet.onnx \
    --output=unet \
    --input_shape="x:1,3,480,480" \
    --soc_version=Ascend910_9362 \
    --framework=5

推理命令

单个子模型推理

# CPU 推理 (文档方向分类器)
python inference.py --mode cpu --submodel ori --image test_input.jpg --output ./results

# NPU 推理 (文档方向分类器)
python inference.py --mode npu --submodel ori --image test_input.jpg --output ./results

全部子模型推理

# CPU 推理全部子模型
python inference.py --mode cpu --submodel all --image test_input.jpg --output ./results

# NPU 推理全部子模型
python inference.py --mode npu --submodel all --image test_input.jpg --output ./results

推理结果

推理耗时

子模型	CPU 耗时	NPU 耗时	加速比
PP-LCNet 文档方向分类器	3.16 ms	0.32 ms	9.9x
PP-LCNet 表格分类器	2.68 ms	0.31 ms	8.6x

NPU 推理速度相比 CPU 提升约 8-10 倍。

部署和推理方法

详见 inference.py，支持 CPU 和 NPU 两种运行模式：

# CPU 推理
from inference import run_cpu
output, elapsed = run_cpu("ori", "input.jpg", "model.onnx", "./results")

# NPU 推理
from inference import run_npu
output, elapsed = run_npu("ori", "input.jpg", "model.om", "./results")

CPU/NPU 精度测试方法

分别使用 CPU (ONNX Runtime) 和 NPU (AscendCL) 对同一张测试图像进行推理
保存两个平台的原始输出张量 (.npy)
使用 compare_cpu_npu.py 计算各项精度指标

# 对比单个子模型
python compare_cpu_npu.py --submodel ori

# 对比全部子模型
python compare_cpu_npu.py --submodel all

CPU/NPU 精度测试结果

PP-LCNet 文档方向分类器

指标	数值
CPU 最小值	0.240963
CPU 最大值	0.257399
CPU 平均值	0.250000
NPU 最小值	0.240601
NPU 最大值	0.257568
NPU 平均值	0.249969
MAE (平均绝对误差)	0.000150
Max AE (最大绝对误差)	0.000362
平均相对误差	0.06%
余弦相似度	1.000000
相对误差 < 1% 比例	100.00%
分类一致率	100.00%

PP-LCNet 表格分类器

指标	数值
CPU 最小值	0.270690
CPU 最大值	0.729310
CPU 平均值	0.500000
NPU 最小值	0.270020
NPU 最大值	0.729980
NPU 平均值	0.500000
MAE (平均绝对误差)	0.000670
Max AE (最大绝对误差)	0.000670
平均相对误差	0.17%
余弦相似度	0.999999
相对误差 < 1% 比例	100.00%
分类一致率	100.00%

Unet 表格结构识别

指标	数值
MAE (平均绝对误差)	0.000000
平均相对误差	0.00%
相对误差 < 1% 比例	100.00%

精度测试结论：各子模型 NPU 与 CPU 推理平均相对误差均小于 1%，符合精度要求。

PP-LCNet 文档方向分类器：0.06% 相对误差，100% 分类一致率
PP-LCNet 表格分类器：0.17% 相对误差，100% 分类一致率
Unet 表格结构识别：0.00% 相对误差（随机测试输入下 CPU/NPU 输出一致）

运行截图

推理截图

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU
#+OCR
#+文档分析
#+CV
#+昇腾
#+ONNX
#+PP-LCNet
#+Unet