语言知识对场景文本识别大有裨益。然而,如何在端到端深度网络中有效建模语言规则仍是一个研究难题。在本文中,我们认为语言模型的能力受限源于:1)隐式语言建模;2)单向特征表示;3)语言模型输入存在噪声。相应地,我们提出了一种用于场景文本识别的自主、双向和迭代 ABINet。首先,“自主”意味着阻断视觉模型和语言模型之间的梯度流,以实现显式语言建模。其次,基于双向特征表示,提出了一种新颖的双向完形填空网络(BCN)作为语言模型。第三,我们为语言模型提出了一种迭代校正的执行方式,能够有效减轻噪声输入的影响。此外,基于迭代预测的集成,我们提出了一种自训练方法,可以有效地从未标记图像中学习。大量实验表明,ABINet 在低质量图像上具有优势,并在多个主流基准测试中取得了最先进的结果。此外,通过集成自训练进行训练的 ABINet 在实现人类水平的识别方面显示出良好的改进前景。[1]
图 1. ABINet 的架构 [1]
根据我们的实验,在公开基准数据集(IC13、IC15、IIIT、SVT、SVTP、CUTE)上的评估结果如下:
| 模型 | 训练环境 | 平均准确率 | 训练时间 | 每秒帧率 | 下载 |
|---|---|---|---|---|---|
| ABINet | D910x8-MS2.1-G | 91.35% | 14,867 秒/轮 | 628.11 | 检查点 |
| 模型 | IC03_860 | IC03_867 | IC13_857 | IC13_1015 | IC15_1811 | IC15_2077 | IIIT5k_3000 | SVT | SVTP | CUTE80 | 平均值 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| ABINet | 96.22% | 95.83% | 96.48% | 94.90% | 84.38% | 80.56% | 95.83% | 92.36% | 87.33% | 89.58% | 91.35% |
注意:
有关模型训练和推理的详细信息,请参考 MindOCR GitHub 仓库。
[1] Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.