google提出的Attention-ocr论文.pdf

本文提出了一种基于卷积神经网络(CNN)、循环神经网络(RNN)和新型空间注意力机制的端到端场景文本识别模型。该模型在具有挑战性的法国街道名称标志数据集(FSNS)上实现了84.2%的准确率,显著优于之前的最佳结果(72.46%)。此外,该模型比之前的方法更简单,更通用。
为了证明模型的可推广性,作者还在更具挑战性的谷歌街景商业名称数据集上进行了测试,并取得了良好的效果。研究了使用不同深度的 CNN 特征提取器(Inception-v2、Inception-v3 和 Inception-Resnet-v2)对准确性和速度的影响。结果表明,更深的网络不一定更好。Inception-v3 和 Inception-Resnet-v2 表现相当,并且都明显优于 Inception-v2。为了提高速度,还研究了这些模型“简易版”的效果。结果表明,对于所有三个网络,准确率最初会随着深度的增加而增加,然后开始下降。作者认为,这是因为图像分类需要复杂的特征,而文本提取则不需要。
**主要贡献:**
1. 提出了一个新的基于注意力的文本阅读架构,该架构以端到端的方式进行训练,在 FSNS 数据集上以显着的优势击败了之前的最佳结果,同时更简单、更通用。
2. 展示了新模型在更具挑战性的街景数据集上的出色表现。
3. 研究了使用不同深度的 CNN 带来的速度/准确性权衡,并推荐了准确且高效的配置。
**模型架构:**
模型首先通过 CNN 进行特征提取,然后将特征图传递给 RNN。
* **CNN 特征提取:** 使用 Inception-v2、Inception-v3 和 Inception-Resnet-v2 作为特征提取器。
* **RNN:** 使用 LSTM 作为字符级语言模型,将图像作为输入。
* **空间注意力:** 引入了空间注意力机制,对 CNN 提取的特征进行加权,以便重点关注图像中重要的部分。
**训练:**
使用 (惩罚的) 最大似然估计进行训练。采用了图像增强、标签平滑和 LSTM 值裁剪等技术来正则化模型。
**实验结果:**
* 在 FSNS 数据集上,模型在准确率上显著超过了之前的方法。
* 在街景商业名称数据集上,模型也取得了良好的效果。
* 分析了不同 CNN 深度对准确性和速度的影响,结果表明,Inception-v3 在准确性和速度之间取得了较好的平衡。
* 对 FSNS 数据集的错误进行了分析,指出了模型的一些局限性。
* 通过可视化技术展示了模型对图像的注意力。
**结论:**
本文提出了一个端到端的场景文本识别方法,该方法在 FSNS 数据集上实现了最先进的性能,并在内部数据集上显示了良好的结果。该模型的核心是新的注意力机制,它使模型能够提取结构化的文本信息。
**未来工作:**
1. 研究更复杂的 RNN 训练方法,如计划采样或混合 ML/RL 方法。
2. 扩展系统,实现对来自店面的完整结构化业务信息的提取。
相关报告
-
6.48 MB 86页 【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf
-
5.17 MB 86页 基于人脸识别的门禁系统实现_倪伟健硕士学位论文.pdf
-
3.82 MB 41页 Google母公司的万亿理想——Waymo公司案例研究分析.pdf
-
598.67 KB 17页 银保监会工作论文-区块链、数字货币和分布式账户的发展与监管研究-2018.6-16页.pdf
-
2.77 MB 43页 创新药物不可用性和获取延迟的根源:缩短等待时间.pdf
-
5.09 MB 23页 抗衰护肤市场进化论,升维战下的三把密钥-Flywheel飞未-202505.pdf
-
11.76 MB 22页 发现CMO必须具备的技能.pdf
-
4.37 MB 30页 面向数据要素可信流通的隐私计算技术.pdf
-
5.62 MB 34页 阿里巴巴(黎槟华):通义灵码-基于代码大模型的智能编码.pdf
-
11.1 MB 30页 我们的叙事 2025女性品质生活消费报告.pdf
-
6.19 MB 33页 健康医疗数据的确权与流通2024.pdf
-
1.68 MB 13页 引领数据流通规范化与高效化的必由之路——构建数据标识体系2025.pdf
-
713.67 KB 12页 新常态下的中国消费-麦肯锡-202504.pdf
-
826.39 KB 16页 氢及其主要衍生物的安全方面:政策制定者的文献综述.pdf
-
5.92 MB 24页 通过质量工程推动金融机构在通用人工智能领域的成功.pdf
-
4.64 MB 304页 影响对人工智能决策支持系统依赖度的关键因素.pdf
-
1.51 MB 29页 货币失序与滞胀困局:黄金的终极信用密码.pdf
-
1.55 MB 19页 【粤开宏观】博弈视角看“关税战”:特朗普的意图与各经济体的不同反应.pdf
-
1.57 MB 26页 银行数字化转型存在马太效应吗? ——基于银行功能的经验阐释.pdf
-
18.98 MB 37页 变革的动力.pdf