ABINet 模型卡片

像人类一样阅读：用于场景文本识别的自主、双向和迭代语言建模

简介

语言知识对场景文本识别大有裨益。然而，如何在端到端深度网络中有效建模语言规则仍是一个研究难题。在本文中，我们认为语言模型的能力受限源于：1）隐式语言建模；2）单向特征表示；3）语言模型输入存在噪声。相应地，我们提出了一种用于场景文本识别的自主、双向和迭代 ABINet。首先，“自主”意味着阻断视觉模型和语言模型之间的梯度流，以实现显式语言建模。其次，基于双向特征表示，提出了一种新颖的双向完形填空网络（BCN）作为语言模型。第三，我们为语言模型提出了一种迭代校正的执行方式，能够有效减轻噪声输入的影响。此外，基于迭代预测的集成，我们提出了一种自训练方法，可以有效地从未标记图像中学习。大量实验表明，ABINet 在低质量图像上具有优势，并在多个主流基准测试中取得了最先进的结果。此外，通过集成自训练进行训练的 ABINet 在实现人类水平的识别方面显示出良好的改进前景。[1]

图 1. ABINet 的架构 [1]

2. 结果

准确率

根据我们的实验，在公开基准数据集（IC13、IC15、IIIT、SVT、SVTP、CUTE）上的评估结果如下：

模型	训练环境	平均准确率	训练时间	每秒帧率	下载
ABINet	D910x8-MS2.1-G	91.35%	14,867 秒/轮	628.11	检查点

各基准数据集的详细准确率结果

模型	IC03_860	IC03_867	IC13_857	IC13_1015	IC15_1811	IC15_2077	IIIT5k_3000	SVT	SVTP	CUTE80	平均值
ABINet	96.22%	95.83%	96.48%	94.90%	84.38%	80.56%	95.83%	92.36%	87.33%	89.58%	91.35%

注意：

训练环境：表示为 {device}x{pieces}-{MS mode}，其中MindSpore模式可以是G（图模式）或F（带ms function的动态图模式）。例如，D910x4-MS1.10-G表示基于MindSpore 1.10版本，使用4张Ascend 910 NPU并采用图模式进行训练。
ABINet的MindIR输入形状为 (1, 3, 32, 128)。

模型快速上手指南

有关模型训练和推理的详细信息，请参考 MindOCR GitHub 仓库。

参考文献

[1] Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.

简介

图 1. ABINet 的架构 [1]

2. 结果

准确率

根据我们的实验，在公开基准数据集（IC13、IC15、IIIT、SVT、SVTP、CUTE）上的评估结果如下：

模型	训练环境	平均准确率	训练时间	每秒帧率	下载
ABINet	D910x8-MS2.1-G	91.35%	14,867 秒/轮	628.11	检查点

各基准数据集的详细准确率结果

模型	IC03_860	IC03_867	IC13_857	IC13_1015	IC15_1811	IC15_2077	IIIT5k_3000	SVT	SVTP	CUTE80	平均值
ABINet	96.22%	95.83%	96.48%	94.90%	84.38%	80.56%	95.83%	92.36%	87.33%	89.58%	91.35%

注意：

训练环境：表示为 {device}x{pieces}-{MS mode}，其中MindSpore模式可以是G（图模式）或F（带ms function的动态图模式）。例如，D910x4-MS1.10-G表示基于MindSpore 1.10版本，使用4张Ascend 910 NPU并采用图模式进行训练。

ABINet的MindIR输入形状为 (1, 3, 32, 128)。