日前,信息检索领域顶级国际会议SIGIR在法国巴黎成功举行,深兰科技再夺一冠! 在sigir 2019电子商务研讨会上,DeepBuleAI团队获得了高精度召回任务挑战第一名。

sigir会议(colt会议)-冯金伟博客园

sigir会议(colt会议)-冯金伟博客园

SIGIR2019电子商务研讨会聚焦于信息检索和自然语言处理研究及其在电子商务领域的应用,具体讨论了电子商务领域的产品检索和推荐方法。 其方法是由eBay组织的“高精度召回任务”数据挑战赛,共有来自全球的近20个团队参与。

sigir会议(colt会议)-冯金伟博客园

这次挑战以电子商务检索中常见的问题为对象。 确定使用非相关性排名时要显示的内容。 竞赛数据集包含约90万个与eBay集合类别的特定字段和集合类别相关的150个热门搜索关键字,每个数据都包含商品标题、价格、分类目录和对应的图像ww 参赛选手必须合理利用数据集,判断查询的短语和文档是否有关联。

用户的EC平台搜索结果通常按维度而不是相关性(如流行度、评论得分、价格、距离等)进行排序,与传统的面向信息的搜索有很大不同。 在这样的检索中,文件以相关的顺序出现,很多检索方法中都利用了它,但是没有相关的排序顺序的研究很少。 此次挑战的重点是找出使用无关性排名时应该召回的内容。 这是一个相当棘手的问题,包括典型的搜索挑战,如模糊性、多个查询意图等。

DeepBlueAI团队是每次比赛都验证深度乐园技术基础算法和技术实力的机会,该模型还用于深度乐园技术的quiXmart高速猫智能尾部平台,是搜索场景的匹配深兰科学技术一直致力于基础研究和应用开发,数据挖掘分析作为最底层的技术之一,在后期的应用中发挥着重要的作用。 通过不断改进和完善,这些技术有望应用于深兰科技的产品和方案,为更多的民生服务。

深兰科技DeepBuleAI团队基于挑战数据集构建了一些有意义的手工特征,基于实践效果较好的文本相似度计算模型ESIM叠加阈值机制,设计了生成的Gate-ESIM网络。 此外,小组根据训练集采用10折交叉验证,结合多个种子均值检索各检索关键字的标签划分阈值。 结果证明,该方案大大提高了用户非相关搜索的匹配指标,在Ave-F1指标上取得了非常好的效果。 该方案不仅适用于电子商务召回任务,也适用于智能呼叫、文章推荐等需要文本匹配的场景。

国际计算机协会信息检索大会(SIGIR )是信息检索领域各种新技术和新成果的重要国际力量聚焦于传播各个方面的国际信息检索大会的历史可以追溯到1971年,那一年举办了ACM SIGIR的信息存储与检索研讨会。 而且,第一次正式的SIGIR大赛于1978年在美国纽约州的罗切斯特举行,每三年在美国以外举行一次,2019年落地法国巴黎。 亚马逊、eBay、谷歌等电子商务和搜索引擎国际巨头,多年来一直深入参与SIGIR。