多模态神经机器翻译-英文.pdf

多模态神经机器翻译-英文.pdf
这份文档主要研究了一种基于搜索引擎图像检索的、用于多模态神经机器翻译(NMT)的方法。该方法旨在解决现有基于有限数据集(如Multi30K)的多模态NMT研究中,图像与句子对的依赖性问题,以及在实际翻译场景中的泛化能力不足的问题。 **主要贡献:** 1. **开放词汇图像检索:** 提出了一种利用图像搜索引擎收集双语平行语料库描述性图像的方法,解决了Zhang等人(2019)因图像数据集有限而造成的不足。 2. **文本感知注意力视觉编码器:** 引入了文本感知的注意力视觉编码器,用于过滤不正确收集的噪声图像,从而提高图像质量。 3. **实验结果:** 在Multi30K、Global Voices和WMT'16 (100k)三个数据集上进行了实验,结果表明,该方法在BLEU评分上取得了显著提升,验证了该方法在多模态NMT中的有效性。 **核心方法:** * **图像检索:** 使用TF-IDF提取句子中的关键词,并组合成搜索查询,在图像搜索引擎中检索相关图像。 * **文本感知注意力视觉编码器:** * 使用ResNet-50提取图像的视觉特征。 * 设计了一个基于缩放点积注意力的视觉编码器,用于过滤噪声图像。 * 该编码器结合了文本特征和图像特征,通过计算图像特征与句子隐藏状态的相似度来加权图像,从而实现文本对图像的注意力。 * **翻译解码器:** 在解码器中使用双向注意力网络和协同注意力网络来建模文本和图像之间的交互。 **实验结果和分析:** * **优于基线模型:** 该方法在Multi30K数据集上取得了38.43的BLEU分数,优于text-only NMT、以及使用原始图像和检索图像的多模态NMT方法。 * **图像数量的影响:** 实验表明,适当增加检索图像的数量能够提高BLEU分数,但超过一定数量后,性能会下降,原因可能是引入了过多的噪声图像。 * **图像质量的影响:** 与随机图像、空白图像相比,该方法检索的图像能够显著提高翻译性能,验证了视觉信息在翻译中的有效性。 * **不同数据集上的表现:** 在Global Voices数据集上,该方法同样取得了较好的效果。但在WMT'16 (100k)数据集上,由于句子抽象程度较高,图像检索的效果有限。 * **错误分析:** 通过案例分析,展示了该方法在处理文本信息不足,或者原数据集图像不够清晰时,利用检索到的图像提高翻译质量的能力。 **结论:** 该研究提出了一种基于搜索引擎图像检索的多模态NMT方法,有效地利用了视觉信息来改善机器翻译效果。该方法能够缓解多模态NMT对图像-句子对依赖的问题,并在一定程度上提高了翻译质量。未来的工作将探索在大规模数据集上进行实验,并进一步分析文本数量对多模态NMT的影响。
在线阅读 下载完整报告 | 2.79 MB | 10页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告