google提出的Attention-ocr论文.pdf

google提出的Attention-ocr论文.pdf
本文提出了一种基于卷积神经网络(CNN)、循环神经网络(RNN)和新型空间注意力机制的端到端场景文本识别模型。该模型在具有挑战性的法国街道名称标志数据集(FSNS)上实现了84.2%的准确率,显著优于之前的最佳结果(72.46%)。此外,该模型比之前的方法更简单,更通用。 为了证明模型的可推广性,作者还在更具挑战性的谷歌街景商业名称数据集上进行了测试,并取得了良好的效果。研究了使用不同深度的 CNN 特征提取器(Inception-v2、Inception-v3 和 Inception-Resnet-v2)对准确性和速度的影响。结果表明,更深的网络不一定更好。Inception-v3 和 Inception-Resnet-v2 表现相当,并且都明显优于 Inception-v2。为了提高速度,还研究了这些模型“简易版”的效果。结果表明,对于所有三个网络,准确率最初会随着深度的增加而增加,然后开始下降。作者认为,这是因为图像分类需要复杂的特征,而文本提取则不需要。 **主要贡献:** 1. 提出了一个新的基于注意力的文本阅读架构,该架构以端到端的方式进行训练,在 FSNS 数据集上以显着的优势击败了之前的最佳结果,同时更简单、更通用。 2. 展示了新模型在更具挑战性的街景数据集上的出色表现。 3. 研究了使用不同深度的 CNN 带来的速度/准确性权衡,并推荐了准确且高效的配置。 **模型架构:** 模型首先通过 CNN 进行特征提取,然后将特征图传递给 RNN。 * **CNN 特征提取:** 使用 Inception-v2、Inception-v3 和 Inception-Resnet-v2 作为特征提取器。 * **RNN:** 使用 LSTM 作为字符级语言模型,将图像作为输入。 * **空间注意力:** 引入了空间注意力机制,对 CNN 提取的特征进行加权,以便重点关注图像中重要的部分。 **训练:** 使用 (惩罚的) 最大似然估计进行训练。采用了图像增强、标签平滑和 LSTM 值裁剪等技术来正则化模型。 **实验结果:** * 在 FSNS 数据集上,模型在准确率上显著超过了之前的方法。 * 在街景商业名称数据集上,模型也取得了良好的效果。 * 分析了不同 CNN 深度对准确性和速度的影响,结果表明,Inception-v3 在准确性和速度之间取得了较好的平衡。 * 对 FSNS 数据集的错误进行了分析,指出了模型的一些局限性。 * 通过可视化技术展示了模型对图像的注意力。 **结论:** 本文提出了一个端到端的场景文本识别方法,该方法在 FSNS 数据集上实现了最先进的性能,并在内部数据集上显示了良好的结果。该模型的核心是新的注意力机制,它使模型能够提取结构化的文本信息。 **未来工作:** 1. 研究更复杂的 RNN 训练方法,如计划采样或混合 ML/RL 方法。 2. 扩展系统,实现对来自店面的完整结构化业务信息的提取。
在线阅读 下载完整报告 | 6.72 MB | 7页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告