z
zkx_/cv_resnet18_ocr-detection-db-line-level_damo-ascend
模型介绍文件和版本Pull Requests讨论分析

cv_resnet18_ocr-detection-db-line-level_damo on Ascend NPU

1. 简介

本文档记录 DBNet (Differentiable Binarization) 文字检测模型在昇腾 NPU (Ascend 910B3) 上的迁移适配与精度验证结果。

DBNet 是 OCR 流水线中的文字检测环节,基于 ResNet18 骨干网络,通过可微分二值化实现文本区域的像素级分割。模型输出二值分割图,后处理通过轮廓提取得到文本行边界框。

相关获取地址:

  • 权重下载地址(ModelScope):https://modelscope.cn/models/damo/cv_resnet18_ocr-detection-db-line-level_damo
  • 权重下载地址(HuggingFace Mirror):https://hf-mirror.com/damo/cv_resnet18_ocr-detection-db-line-level_damo

参考文档:

  • https://modelscope.cn/models/damo/cv_resnet18_ocr-detection-db-line-level_damo

2. 验证环境

组件版本
CANN8.5.1
torch2.8.0
torch_npu2.8.0.post4
modelscope1.37.0
numpy1.24.4
opencv-python-headless4.13.0
  • NPU:Ascend 910B3,单卡推理
  • 模型大小:约 12.3M 参数,~49MB

3. 推理启动

pip install torch==2.8.0 torch_npu==2.8.0.post4 modelscope opencv-python-headless numpy \
    pyclipper shapely sortedcontainers simplejson addict datasets pyarrow \
    -i https://mirrors.huaweicloud.com/repository/pypi/simple
python inference.py --image document.jpg --device npu

4. Smoke 验证

  • CPU 推理输出 [1, 1, 640, 640] 分割图,正常
  • NPU 推理输出同形状,正常
  • 首轮 NPU 含算子编译预热

5. 性能参考

指标CPUNPU (Ascend 910B3)
平均耗时1444.6 ms6.2 ms
中位耗时1421.6 ms6.2 ms
加速比—233.3x

6. 精度评测

指标数值
输出形状[1, 1, 640, 640]
鲁棒平均相对误差0.1116%
精度要求平均相对误差 < 1%
精度评测通过

7. 注意事项

  1. 模型通过 model.detector 获取 DBModel,直接输入 Tensor [1,3,H,W] 得到分割图
  2. 完整 OCR 流水线为:文字检测(本模型)→ 裁剪文本区域 → 文字识别(ConvNextViT / LightweightEdge)
  3. 后处理(分割图 → 文本边界框)需在 CPU 执行,使用 pyclipper + shapely 库
下载使用量0