AI做“军师”？先赢过Reddit用户再说吧

　　日前，西雅图的研究人员推出了一项被他们称为“TuringAdvice”的新人工智能大挑战，挑战的核心是创建语言模型，为使用真实世界语言的人类提供有用的建议。

　　TuringAdvice 挑战赛是基于动态的 RedditAdvice 数据集而发起的。Reddit advice 是为迎接挑战而创建的，它是一个众包的数据集，在过去两周里共享的建议在 Reddit 小组中获得了最多的支持票。为了通过挑战，机器提供的建议必须要与那些受欢迎的人类建议一样有用，甚至更好。

　　作为 TuringAdvice 的一部分，研究人员还发布了一个静态 RedditAdvice 2019 数据集，用于训练提供建议的人工智能模型，其中包括 Reddit 子社区用户分享的 18.8 万个情景下的 61.6 万条建议。

　　初步分析表明，像谷歌 T5（去年秋天推出的一个拥有 110 亿个参数的模型）这样的高级模型，只有在9% 的情况下，写建议版主发现至少和人类建议一样有用。研究人员还评估了 Grover 变压器模型和 TF-IDF 的版本。这项研究没有评估像 Google 的 BERT 这样流行的双向 NLP 模型，因为它们通常被认为在生成文本方面不如从左到右的模型。关于人际关系、法律事务和日常生活方面的建议，可以在网上找到人机对比演示。

　　最近发布的一篇关于 TuringAdvice 的论文写道：“今天最大的模型在 REDDITADVICE 上苦苦挣扎，所以我们很高兴看到新模型得到发展。”

　　“我们认为，如今存在一个深层次的问题：人类在现实世界中如何使用语言，与我们的评估方法能够衡量的，这二者之间存在差距。当今的主流范式是研究静态数据集，并根据输出结果与预先定义正确答案的相似性对机器进行评级。”

　　“然而，当我们在现实世界中使用语言进行交流时——比如提供建议，或向某人传授一个概念——很少有一个通用的正确答案可以与之相比，这只是我们想要实现的一个松散的目标。我们引入了一个框架来缩小基准测试和实际语言使用之间的差距。”

　　作者们表示，TuringAdvice 挑战赛中的 AI 进展，可能会使人工智能更好地为人类提供建议或充当虚拟治疗师。

　　为了确保结果与真实世界的语言使用保持一致，研究小组选择了一种动态评估方法，他们在最近两周内从 Reddit 的各个子社区收集了 200 个情况。他们选择把建议作为一个测试场景，因为它是所有人都非常熟悉的东西，并且与阅读理解等核心 NLP 任务重叠。

　　TuringAdvice 挑战是华盛顿大学和艾伦人工智能研究所（Allen Institute of AI）的工作，上周在 arXiv 上发表的一篇研究论文对此进行了详细阐述。该论文题为根据机器的实际语言使用情况来评估机器》（evaluation Machines by their Real-World Language Use）。华盛顿大学副教授 Ali Farhadi 是艾伦研究所先前团队的负责人，也是本文的合著者之一，他的人工智能初创企业 Xnor 最近被苹果收购。

　　所有的模型性能评估都来自于通过亚马逊的 Mechanical Turk 雇佣的人员。这篇论文曾对获取人工智能模型培训数据的方式表示不满，但它认为，比起发布自动化机器建议来回应需要帮助的人类，雇佣 Mechanical Turk 员工的做法更有道德；它也承认，获得报酬来完成这项任务会引入外部动机。倾向于选择机器建议而非人类建议的工人被解雇了。

　　首席研究员 Rowan Zellers 在采访中透露，研究人员将有机会创建并调整他们的模型；第二轮排行榜结果预计将在未来几个月内公布。

　　研究人员表示，他们选择了 Reddit 各子社区分享的流行建议，试图创造一种内在的动力，就像人们在 Reddit 上响应求助时所体验的那样。

　　TuringAdvice 挑战赛的一个关注点是价格。评估 200 条关于 Mechanical Turk 的建议大概需要 370 美元。未来挑战赛的参与者将被要求支付 Mechanical Turk 的费用，以便他们的模型被评估或出现在 TuringAdvice 排行榜上。

　　TuringAdvice 是过去一年中为建立更健壮的自然语言模型而创造的最新挑战。去年秋天，华盛顿大学的 NLP 实验室曾与纽约大学、Facebook 的 AI 研究院和三星研究院一道，推出了 SuperGLUE 挑战赛和“排行榜”(leaderboard)这一个更复杂的评估性能的任务系列。

　　雷锋网编译，via VentureBeat：https://venturebeat.com/2020/04/14/researchers-challenge-ai-to-give-advice-as-well-as-humans-on-reddit-can/

AI做“军师”？先赢过Reddit用户再说吧

星星海SA2云服务器助力腾讯广告“千人千面”，广告计算提速25%

腾讯安全与北京市方正公证处战略合作

最新文章

文字的来历（中国文字竟然是这样来的）

顺丰快递一公斤多少钱运费，顺丰发大件40公斤大概多少钱

打印怎么横向打印

不可回收垃圾桶的标志

「已回复」一加元相当多少人民币

无线路由器流量卡价格 4g路由器流量卡怎样收费(关于4G无线路由器的选择)

f1历届冠军（f1排名2020最新排名）

「常识」只可远观不可亵玩焉什么意思

麻辣烫配料（花钱学了四款麻辣烫汤料的配方和制作方法）

无线监控摄像头流量卡价格监控专用无线流量卡(如何选择无线监控摄像头专用流量卡)

标签

热评文章

广东夏季漂流好去处（广东十大著名漂流胜地）

cfo是什么意思?（带你了解CFO到底是什么）

日本十大小清新电影排行榜！（十部日式小清新电影）

个人爱好怎么写（简历中特长爱好应该如何写？）

孙思邈著作（唐代医药学家孙思邈流传的著作都有哪些）

AI做“军师”？先赢过Reddit用户再说吧

星星海SA2云服务器助力腾讯广告“千人千面”，广告计算提速25%

腾讯安全与北京市方正公证处战略合作

最新文章

文字的来历（中国文字竟然是这样来的）

标签

热评文章

广东夏季漂流好去处（广东十大著名漂流胜地 ）

cfo是什么意思?（带你了解CFO到底是什么）

日本十大小清新电影排行榜！（十部日式小清新电影）

个人爱好怎么写（简历中特长爱好应该如何写？）

孙思邈著作（唐代医药学家孙思邈流传的著作都有哪些）

关注我们的公众号

广东夏季漂流好去处（广东十大著名漂流胜地）