google提出的Attention-ocr论文.pdf

本文提出了一种基于卷积神经网络(CNN)、循环神经网络(RNN)和新型空间注意力机制的端到端场景文本识别模型。该模型在具有挑战性的法国街道名称标志数据集(FSNS)上实现了84.2%的准确率,显著优于之前的最佳结果(72.46%)。此外,该模型比之前的方法更简单,更通用。
为了证明模型的可推广性,作者还在更具挑战性的谷歌街景商业名称数据集上进行了测试,并取得了良好的效果。研究了使用不同深度的 CNN 特征提取器(Inception-v2、Inception-v3 和 Inception-Resnet-v2)对准确性和速度的影响。结果表明,更深的网络不一定更好。Inception-v3 和 Inception-Resnet-v2 表现相当,并且都明显优于 Inception-v2。为了提高速度,还研究了这些模型“简易版”的效果。结果表明,对于所有三个网络,准确率最初会随着深度的增加而增加,然后开始下降。作者认为,这是因为图像分类需要复杂的特征,而文本提取则不需要。
**主要贡献:**
1. 提出了一个新的基于注意力的文本阅读架构,该架构以端到端的方式进行训练,在 FSNS 数据集上以显着的优势击败了之前的最佳结果,同时更简单、更通用。
2. 展示了新模型在更具挑战性的街景数据集上的出色表现。
3. 研究了使用不同深度的 CNN 带来的速度/准确性权衡,并推荐了准确且高效的配置。
**模型架构:**
模型首先通过 CNN 进行特征提取,然后将特征图传递给 RNN。
* **CNN 特征提取:** 使用 Inception-v2、Inception-v3 和 Inception-Resnet-v2 作为特征提取器。
* **RNN:** 使用 LSTM 作为字符级语言模型,将图像作为输入。
* **空间注意力:** 引入了空间注意力机制,对 CNN 提取的特征进行加权,以便重点关注图像中重要的部分。
**训练:**
使用 (惩罚的) 最大似然估计进行训练。采用了图像增强、标签平滑和 LSTM 值裁剪等技术来正则化模型。
**实验结果:**
* 在 FSNS 数据集上,模型在准确率上显著超过了之前的方法。
* 在街景商业名称数据集上,模型也取得了良好的效果。
* 分析了不同 CNN 深度对准确性和速度的影响,结果表明,Inception-v3 在准确性和速度之间取得了较好的平衡。
* 对 FSNS 数据集的错误进行了分析,指出了模型的一些局限性。
* 通过可视化技术展示了模型对图像的注意力。
**结论:**
本文提出了一个端到端的场景文本识别方法,该方法在 FSNS 数据集上实现了最先进的性能,并在内部数据集上显示了良好的结果。该模型的核心是新的注意力机制,它使模型能够提取结构化的文本信息。
**未来工作:**
1. 研究更复杂的 RNN 训练方法,如计划采样或混合 ML/RL 方法。
2. 扩展系统,实现对来自店面的完整结构化业务信息的提取。
相关报告
-
6.48 MB 86页 【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf
-
5.17 MB 86页 基于人脸识别的门禁系统实现_倪伟健硕士学位论文.pdf
-
3.82 MB 41页 Google母公司的万亿理想——Waymo公司案例研究分析.pdf
-
598.67 KB 17页 银保监会工作论文-区块链、数字货币和分布式账户的发展与监管研究-2018.6-16页.pdf
-
5.03 MB 25页 2025“Z世代眼中的世界”全球青年调查研究报告-中国日报社-202511.pdf
-
19.83 MB 64页 智能体监督的未来.pdf
-
2.43 MB 54页 2025“对话的力量”——中文播客的公共价值报告-复旦大学x小宇宙-202510.pdf
-
11.26 MB 88页 斯德哥尔摩大学:2025守护地球:环境压力加剧下的人工智能赋能之道研究报告.pdf
-
7.16 MB 58页 抖音母婴行业当我遇见小小的你项目营销方案.pdf
-
24.94 MB 53页 人工智能背景下的设计趋势洞察报告:设计&AI共生.pdf
-
2.83 MB 86页 破局与重生:2025年中国酒店业的韧性之路-毕马威-202511.pdf
-
569.91 KB 88页 2025年数字时代的男孩.pdf
-
7.37 MB 32页 2025年中国低空经济研究报告—58座城市“低空战力”的系统盘点.pdf
-
5.27 MB 55页 2025年为什么AI不推荐你?B2B企业的GEO实战报告.pdf
-
8.43 MB 45页 2026年媒介趋势报告:算法时代的人性真相-dentsu电通-202511.pdf
-
8.46 MB 72页 智启氢程AI技术在氢能领域的应用研究.pdf
-
5.93 MB 80页 2025年影响力报告—全球房地产的未来-第一太平戴维斯-202511.pdf