鑒別人工智慧研究

鑒別人工智慧研究
这份数据简报由乔治城大学安全与新兴技术中心 (CSET) 发布,旨在探讨识别人工智能 (AI) 研究的不同方法,并评估这些方法在识别 AI/ML 相关文献方面的效果。简报比较了四种主要方法:关键词搜索、研究领域分类、基于 arXiv 的分类以及研究聚类,并分析了它们在 CSET 整合的学术文献语料库、AI/ML 会议出版物和 arXiv 预印本上的表现。 核心发现包括: * **方法选择至关重要:** 不同的方法在识别 AI/ML 相关文献方面存在显著差异,选择哪种方法会对分析结果产生影响。 * **arXiv 分类器表现最佳(英文):** 对于英语文献,经过 arXiv 专家标签微调的 SPECTER-based transformer 模型表现优于其他方法,在精确度和召回率方面均表现出色。 * **跨语言方法:** 对于包含中文的文献,建议首先使用 arXiv 分类器处理英文文本,然后对中文文本进行关键词搜索。 * **关键词搜索的局限性:** 虽然关键词搜索实施门槛较低,但难以维护,且容易受到术语漂移的影响。此外,关键词搜索在 arXiv 语料库中的表现最差。 * **研究领域分类的优势:** 研究领域分类能够识别应用领域中的 AI/ML 研究,例如在生物技术研究和开发中使用 AI/ML 技术。 * **研究聚类方法的优势:** 研究聚类方法可以通过引用网络扩展到英语和中文以外的语言。 * **语料库差异的影响:** 分析机构在考察作者所属机构时,需要注意不同方法对AI/ML研究识别的语言和地域差异。 简报强调,研究人员和政策制定者在识别 AI/ML 相关文献时应谨慎选择方法,并充分了解每种方法的优势和局限性。 arXiv 分类器由于其性能和对更新的专家标签的支持,被推荐用于识别英语 AI/ML 相关出版物。关键词搜索在英文结果中可能需要手动审查。
在线阅读 下载完整报告 | 468.48 KB | 24页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告