HuggingFace镜像/abinet
模型介绍文件和版本分析
下载使用量0

ABINet 模型卡片

像人类一样阅读:用于场景文本识别的自主、双向和迭代语言建模

简介

语言知识对场景文本识别大有裨益。然而,如何在端到端深度网络中有效建模语言规则仍是一个研究难题。在本文中,我们认为语言模型的能力受限源于:1)隐式语言建模;2)单向特征表示;3)语言模型输入存在噪声。相应地,我们提出了一种用于场景文本识别的自主、双向和迭代 ABINet。首先,“自主”意味着阻断视觉模型和语言模型之间的梯度流,以实现显式语言建模。其次,基于双向特征表示,提出了一种新颖的双向完形填空网络(BCN)作为语言模型。第三,我们为语言模型提出了一种迭代校正的执行方式,能够有效减轻噪声输入的影响。此外,基于迭代预测的集成,我们提出了一种自训练方法,可以有效地从未标记图像中学习。大量实验表明,ABINet 在低质量图像上具有优势,并在多个主流基准测试中取得了最先进的结果。此外,通过集成自训练进行训练的 ABINet 在实现人类水平的识别方面显示出良好的改进前景。[1]

图 1. ABINet 的架构 [1]

2. 结果

准确率

根据我们的实验,在公开基准数据集(IC13、IC15、IIIT、SVT、SVTP、CUTE)上的评估结果如下:

模型训练环境平均准确率训练时间每秒帧率下载
ABINetD910x8-MS2.1-G91.35%14,867 秒/轮628.11检查点
各基准数据集的详细准确率结果
模型IC03_860IC03_867IC13_857IC13_1015IC15_1811IC15_2077IIIT5k_3000SVTSVTPCUTE80平均值
ABINet96.22%95.83%96.48%94.90%84.38%80.56%95.83%92.36%87.33%89.58%91.35%

注意:

  • 训练环境:表示为 {device}x{pieces}-{MS mode},其中MindSpore模式可以是G(图模式)或F(带ms function的动态图模式)。例如,D910x4-MS1.10-G表示基于MindSpore 1.10版本,使用4张Ascend 910 NPU并采用图模式进行训练。
  • ABINet的MindIR输入形状为 (1, 3, 32, 128)。

模型快速上手指南

有关模型训练和推理的详细信息,请参考 MindOCR GitHub 仓库。

参考文献

[1] Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.