google提出的Attention-ocr论文.pdf

本文提出了一种基于卷积神经网络(CNN)、循环神经网络(RNN)和新型空间注意力机制的端到端场景文本识别模型。该模型在具有挑战性的法国街道名称标志数据集(FSNS)上实现了84.2%的准确率,显著优于之前的最佳结果(72.46%)。此外,该模型比之前的方法更简单,更通用。
为了证明模型的可推广性,作者还在更具挑战性的谷歌街景商业名称数据集上进行了测试,并取得了良好的效果。研究了使用不同深度的 CNN 特征提取器(Inception-v2、Inception-v3 和 Inception-Resnet-v2)对准确性和速度的影响。结果表明,更深的网络不一定更好。Inception-v3 和 Inception-Resnet-v2 表现相当,并且都明显优于 Inception-v2。为了提高速度,还研究了这些模型“简易版”的效果。结果表明,对于所有三个网络,准确率最初会随着深度的增加而增加,然后开始下降。作者认为,这是因为图像分类需要复杂的特征,而文本提取则不需要。
**主要贡献:**
1. 提出了一个新的基于注意力的文本阅读架构,该架构以端到端的方式进行训练,在 FSNS 数据集上以显着的优势击败了之前的最佳结果,同时更简单、更通用。
2. 展示了新模型在更具挑战性的街景数据集上的出色表现。
3. 研究了使用不同深度的 CNN 带来的速度/准确性权衡,并推荐了准确且高效的配置。
**模型架构:**
模型首先通过 CNN 进行特征提取,然后将特征图传递给 RNN。
* **CNN 特征提取:** 使用 Inception-v2、Inception-v3 和 Inception-Resnet-v2 作为特征提取器。
* **RNN:** 使用 LSTM 作为字符级语言模型,将图像作为输入。
* **空间注意力:** 引入了空间注意力机制,对 CNN 提取的特征进行加权,以便重点关注图像中重要的部分。
**训练:**
使用 (惩罚的) 最大似然估计进行训练。采用了图像增强、标签平滑和 LSTM 值裁剪等技术来正则化模型。
**实验结果:**
* 在 FSNS 数据集上,模型在准确率上显著超过了之前的方法。
* 在街景商业名称数据集上,模型也取得了良好的效果。
* 分析了不同 CNN 深度对准确性和速度的影响,结果表明,Inception-v3 在准确性和速度之间取得了较好的平衡。
* 对 FSNS 数据集的错误进行了分析,指出了模型的一些局限性。
* 通过可视化技术展示了模型对图像的注意力。
**结论:**
本文提出了一个端到端的场景文本识别方法,该方法在 FSNS 数据集上实现了最先进的性能,并在内部数据集上显示了良好的结果。该模型的核心是新的注意力机制,它使模型能够提取结构化的文本信息。
**未来工作:**
1. 研究更复杂的 RNN 训练方法,如计划采样或混合 ML/RL 方法。
2. 扩展系统,实现对来自店面的完整结构化业务信息的提取。
相关报告
-
6.48 MB 86页 【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf
-
5.17 MB 86页 基于人脸识别的门禁系统实现_倪伟健硕士学位论文.pdf
-
3.82 MB 41页 Google母公司的万亿理想——Waymo公司案例研究分析.pdf
-
598.67 KB 17页 银保监会工作论文-区块链、数字货币和分布式账户的发展与监管研究-2018.6-16页.pdf
-
5.47 MB 13页 “十五五”规划系列报告一:“十五五”规划的三条主线、五个猜想-光大证券-20250928.pdf
-
17.05 MB 19页 2025年Z世代的经济十字路口:品牌发展的世代性机遇报告-奥美-202509.pdf
-
1.06 MB 69页 新时代中国文化遗产保护的理念与实践.pdf
-
6.41 MB 114页 2025年智创时代下,未来人才的核心竞争力报告-胡润百富-202509.pdf
-
2.12 MB 51页 2025年教育监测报告:基于对30个国家的调查.pdf
-
6.64 MB 62页 AI医疗专题系列二:从DEEPSEEK的崛起看AI医疗发展方向及投资机会.pdf
-
38.87 MB 206页 2025年人效飞轮:存量时代的高质量增长指南报告-HRflag-202509.pdf
-
5.24 MB 54页 全球变局中的宏观经济与资产布局-中信建投-20250915.pdf
-
2.52 MB 182页 虚拟时代的个人品牌塑造.pdf
-
4.55 MB 96页 机遇之城2025:洞察新质生产力下的城市机遇-普华永道x瞭望智库-202509.pdf
-
2.63 MB 39页 影响未来消费的八大经济模式-贝恩-202509.pdf
-
5.03 MB 38页 如何布局“十五五”规划的投资机会-国海证券-20250910.pdf
-
5.94 MB 20页 谁的牛市?——A股七大资金主体面面观-天风证券-20250905.pdf
-
7.59 MB 60页 2025年新时代央国企青年人才的选拔培养与发展报告-智联测评研究院-202508.pdf
-
3.57 MB 41页 大象转身:房地产视角下的宏观经济-国信证券-202509.pdf