google提出的Attention-ocr论文.pdf下载

本文提出了一种基于卷积神经网络（CNN）、循环神经网络（RNN）和新型空间注意力机制的端到端场景文本识别模型。该模型在具有挑战性的法国街道名称标志数据集（FSNS）上实现了84.2%的准确率，显著优于之前的最佳结果（72.46%）。此外，该模型比之前的方法更简单，更通用。为了证明模型的可推广性，作者还在更具挑战性的谷歌街景商业名称数据集上进行了测试，并取得了良好的效果。研究了使用不同深度的 CNN 特征提取器（Inception-v2、Inception-v3 和 Inception-Resnet-v2）对准确性和速度的影响。结果表明，更深的网络不一定更好。Inception-v3 和 Inception-Resnet-v2 表现相当，并且都明显优于 Inception-v2。为了提高速度，还研究了这些模型“简易版”的效果。结果表明，对于所有三个网络，准确率最初会随着深度的增加而增加，然后开始下降。作者认为，这是因为图像分类需要复杂的特征，而文本提取则不需要。 **主要贡献：** 1. 提出了一个新的基于注意力的文本阅读架构，该架构以端到端的方式进行训练，在 FSNS 数据集上以显着的优势击败了之前的最佳结果，同时更简单、更通用。 2. 展示了新模型在更具挑战性的街景数据集上的出色表现。 3. 研究了使用不同深度的 CNN 带来的速度/准确性权衡，并推荐了准确且高效的配置。 **模型架构：** 模型首先通过 CNN 进行特征提取，然后将特征图传递给 RNN。 * **CNN 特征提取：** 使用 Inception-v2、Inception-v3 和 Inception-Resnet-v2 作为特征提取器。 * **RNN：** 使用 LSTM 作为字符级语言模型，将图像作为输入。 * **空间注意力：** 引入了空间注意力机制，对 CNN 提取的特征进行加权，以便重点关注图像中重要的部分。 **训练：** 使用 (惩罚的) 最大似然估计进行训练。采用了图像增强、标签平滑和 LSTM 值裁剪等技术来正则化模型。 **实验结果：** * 在 FSNS 数据集上，模型在准确率上显著超过了之前的方法。 * 在街景商业名称数据集上，模型也取得了良好的效果。 * 分析了不同 CNN 深度对准确性和速度的影响，结果表明，Inception-v3 在准确性和速度之间取得了较好的平衡。 * 对 FSNS 数据集的错误进行了分析，指出了模型的一些局限性。 * 通过可视化技术展示了模型对图像的注意力。 **结论：** 本文提出了一个端到端的场景文本识别方法，该方法在 FSNS 数据集上实现了最先进的性能，并在内部数据集上显示了良好的结果。该模型的核心是新的注意力机制，它使模型能够提取结构化的文本信息。 **未来工作：** 1. 研究更复杂的 RNN 训练方法，如计划采样或混合 ML/RL 方法。 2. 扩展系统，实现对来自店面的完整结构化业务信息的提取。

google提出的Attention-ocr论文.pdf

相关报告

6.48 MB 86页【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf

5.17 MB 86页基于人脸识别的门禁系统实现_倪伟健硕士学位论文.pdf

3.82 MB 41页 Google母公司的万亿理想——Waymo公司案例研究分析.pdf

598.67 KB 17页银保监会工作论文-区块链、数字货币和分布式账户的发展与监管研究-2018.6-16页.pdf

2.77 MB 43页创新药物不可用性和获取延迟的根源：缩短等待时间.pdf

5.09 MB 23页抗衰护肤市场进化论，升维战下的三把密钥-Flywheel飞未-202505.pdf

11.76 MB 22页发现CMO必须具备的技能.pdf

4.37 MB 30页面向数据要素可信流通的隐私计算技术.pdf

5.62 MB 34页阿里巴巴（黎槟华）：通义灵码-基于代码大模型的智能编码.pdf

11.1 MB 30页我们的叙事 2025女性品质生活消费报告.pdf

6.19 MB 33页健康医疗数据的确权与流通2024.pdf

1.68 MB 13页引领数据流通规范化与高效化的必由之路——构建数据标识体系2025.pdf

713.67 KB 12页新常态下的中国消费-麦肯锡-202504.pdf

826.39 KB 16页氢及其主要衍生物的安全方面：政策制定者的文献综述.pdf

5.92 MB 24页通过质量工程推动金融机构在通用人工智能领域的成功.pdf

4.64 MB 304页影响对人工智能决策支持系统依赖度的关键因素.pdf

1.51 MB 29页货币失序与滞胀困局：黄金的终极信用密码.pdf

1.55 MB 19页【粤开宏观】博弈视角看“关税战”：特朗普的意图与各经济体的不同反应.pdf

1.57 MB 26页银行数字化转型存在马太效应吗？ ——基于银行功能的经验阐释.pdf

18.98 MB 37页变革的动力.pdf

google提出的Attention-ocr论文.pdf

相关报告

6.48 MB 86页 【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf

5.17 MB 86页 基于人脸识别的门禁系统实现_倪伟健硕士学位论文.pdf

3.82 MB 41页 Google母公司的万亿理想——Waymo公司案例研究分析.pdf

598.67 KB 17页 银保监会工作论文-区块链、数字货币和分布式账户的发展与监管研究-2018.6-16页.pdf

2.77 MB 43页 创新药物不可用性和获取延迟的根源：缩短等待时间.pdf

5.09 MB 23页 抗衰护肤市场进化论，升维战下的三把密钥-Flywheel飞未-202505.pdf

11.76 MB 22页 发现CMO必须具备的技能.pdf

4.37 MB 30页 面向数据要素可信流通的隐私计算技术.pdf

5.62 MB 34页 阿里巴巴（黎槟华）：通义灵码-基于代码大模型的智能编码.pdf

11.1 MB 30页 我们的叙事 2025女性品质生活消费报告.pdf

6.19 MB 33页 健康医疗数据的确权与流通2024.pdf

1.68 MB 13页 引领数据流通规范化与高效化的必由之路——构建数据标识体系2025.pdf

713.67 KB 12页 新常态下的中国消费-麦肯锡-202504.pdf

826.39 KB 16页 氢及其主要衍生物的安全方面：政策制定者的文献综述.pdf

5.92 MB 24页 通过质量工程推动金融机构在通用人工智能领域的成功.pdf

4.64 MB 304页 影响对人工智能决策支持系统依赖度的关键因素.pdf

1.51 MB 29页 货币失序与滞胀困局：黄金的终极信用密码.pdf

1.55 MB 19页 【粤开宏观】博弈视角看“关税战”：特朗普的意图与各经济体的不同反应.pdf

1.57 MB 26页 银行数字化转型存在马太效应吗？ ——基于银行功能的经验阐释.pdf

18.98 MB 37页 变革的动力.pdf