
图片来源:Shutterstock
如果使用机器学习进行培训并且支持搜索引擎的信息检索模型,则需要大量手动注释数据。这是因为他们不仅要处理一系列查询,还要处理与这些查询相关的任何和所有数据。幸运的是,亚马逊Alexa部门的科学家详细介绍了一种方法,可以这种需要较少人工监督的模型铺平道路。而且,这一改变会将训练数据集的大小从数万个条目增加到数百万个,从而在未来产生性能更好的系统。
正如团队解释的那样,基于人工智能的检索算法通常针对一个查询和两个文档进行训练,即满足用户搜索信息的“相关”文档,以及不相关但不相关的文档。有问题的文档由人类手工标记为相关或非相关,在培训期间,人工智能系统将学习如何最大化分配“处理过的样本的相关度评分”之间的差异。
相比之下,研究人员所使用的方法利用了现有的数据,即大量的信息检索训练数据。众多的新闻文章和维基百科条目,已经与他们介绍的文章的相关文本相关联。换句话说,他们假设标题和标题可以代替搜索字符串用于训练目的。
该团队首先从《纽约时报》的在线知识库和维基百科中收集了数百万对文档标题序列。从每一对序列中,他们使用查询和相关的文本(以及与查询相关但没有关联的文本)来训练机器学习模型。然后,他们利用美国在线(AOL)的一个语料库(由客户查询和搜索结果组成)建立一个基线,并应用一种算法为每个查询识别相关和非相关文本。最后,他们用一组大约25000个手工注释的样本和从测试数据中通过算法选择的样本补充了AOL的数据集。
为了证明他们的方法的有效性,该团队分别在四个测试集:纽约时报,维基百科,AOL和手工注释集中分别训练AI系统,并对前20个结果的累积相关性的使用指标称为“规范化折扣累积获得”(nDCG)。他们报告说,在基线中,AOL数据集和称为位置感知卷积循环相关网络(PACRR)的AI架构的组合产生了最好的结果。在同一系统上,纽约时报的数据集使nDCG增加了12%。当系统接受了难以与给定新目标域中的数据区分的示例的训练时,分数提高了35%。
“通过使用我们的方法,我们可以在没有行为数据、只有有限的领域内数据的情况下,在新的领域有效地训练神经排序模型。”合著者写道。
