《纽约时报》揭秘 Facebook 内容清理工作:“累死 AI”都完不成的任务-冯金伟博客园

  编者按:最近一系列的丑闻让社交网络巨头 Facebook 坐在了火山口上。平台是中立的,不能干涉用户生成内容再也不能成为借口。但是 20 亿用户每天产生的内容量要想清理简直是天方夜谭。哪怕使用了 AI 加以辅佐,也总会有 AI 意想不到的情况出现。这就好比一场猫捉老鼠的游戏,又像是西西弗斯推巨石上山,每每快到山顶时,石头就会从其手中滑脱,又得重新推回去,干着无止境的劳动。CTO 原本要帮助 Facebook 面向未来探索 AI 应用的新领域,现在不得不背负起这一沉重的负担。Cade Metz 与 Mike Isaac 在《纽约时报》的一篇文章报道了 Facebook 内容清理方面的努力。

  原文标题是:Artificial Intelligence and the Job of Cleaning Up Facebook

《纽约时报》揭秘 Facebook 内容清理工作:“累死 AI”都完不成的任务-冯金伟博客园

  有那么半小时,我们是坐在 Facebook 总部的一个会议室里的。周围都是白板,上面放满了蓝色和红色记号笔,我们在讨论从该社交网络剔除有害内容的技术难度。然后我们调出了一段视频证明这种挑战是难以对付的:新西兰克赖斯特彻奇的枪击案。

  今年 3 月,一名枪手在 2 个清真寺射杀了 51 人,而且还在 Facebook 上进心视频直播。公司用了大概 1 个小时才把视频从网站清除。不过此时血腥镜头已经在社交媒体上传播开了。

  Schroepfer 沉默了。他的眼里好像有东西在闪。

  一分钟后,他试图保持镇静的语气:“我们现在正致力于此事。这不会是一夜之功。但是我不希望 6 个月后再来一次这场对话。我们可以做得比这好得多。”

  问题是此话当真还是 Facebook 只是在开玩笑。

  过去 3 年,这个社交网络就一直因为有人在其网站上发布虚假、误导和不合适的内容的扩散而受到审查。CEO 扎克伯格已经调用了一项技术,据他说可以帮助消除有问题的帖子:人工智能。

  去年,在国会面前,扎克伯格作证说 Facebook 正在开发基于机器的系统来“识别特定类别的不良活动”,并且宣布“在 5 到 10 年内,我们将拥有 AI 工具”来侦测和移除仇恨言论。此后他就不断在媒体、与华尔街的电话会议及 Facebook 自己的活动上重复这些话。

  Schroepfer——或者内部被叫做 Schrep——就是 Facebook 的项目负责人。他要带领团队开发对数百万此类帖子进行分类和删除的自动化工具。但是这项任务就像西西弗斯推石头上山一样——是徒劳的,他在最近接受的 3 次采访中均承认了这一点。

  这是因为每次 Schroepfer 和他的超过 150 名工程专家刚做出标记和清理有害材料的 AI 解决方案时,AI 系统没见过的新的、可疑帖子(因此也就抓不到)又冒头了。再加上“不良活动”往往是旁观者的看法,而且不要说机器了,就连人类对它是什么也意见不一致,这使得这项任务更加困难。

  在一次采访中,Schroepfer 被迫承认光靠 AI 没法治好 Facebook 的病。他说:“我的确认为现在进入了收官阶段。”但“我并不认为‘一切均已解决’,可以收拾东西回家了。”

  但是压力还在。过去的一周,在克赖斯特彻奇的视频饱受批评之后,Facebook 修改了政策,对流媒体服务的使用进行了限制。周三在巴黎出席有法国总统马克龙和新西兰总理杰辛达·阿德恩参与的峰会时,该公司签署了一份保证书,承诺对其用于识别暴力内容的工具进行重新检查。

  44 岁的 Schroepfer 现在处在一个自己永远都不想坐的位置。多年来,他的工作一直都是帮助 Facebook 建设和一流的 AI 实验室。在这里,最聪明的头脑将解决利用机器从照片中选出人脸等技术挑战。他和扎克伯格希望做出一个可以跟 Google,这个被广泛视为 AI 研究人员实力最雄厚的公司匹敌的 AI 部门。所以他从纽约大学、伦敦大学以及巴黎第六大学招聘博士。

  但慢慢地,他已经变成了威胁和有害内容消除者的角色。现在,他和他招进来的人很多时间都花在利用 AI 识别和删除死亡威胁、自杀视频、错误信息以及彻底谎言上面了。

  John Lilly 是 Moziila 前 CEO,现在是 Greylock Partners 的风投家,1990 年代中期时曾与 Schroepfer 一起读计算机科学。她说:“我们谁都没见过这样的事情。该怎么解决这些问题没人任何人可以求助。”

  Facebook 允许我们跟 Schroepfer 交流,因为它想展示一下 AI 是怎么捕捉那些讨厌的内容的,大概也是因为它对人性化自己的主管感兴趣。据很多认识他的人说,这位 CTO 经常展现他的感受。

  Jocelyn Goldfein 就跟 Schroepfe 在 Facebook 共事过。前者是 Zetta Venture Partners 的风投家,他作证说:“我见过 Schrep 在工作中哭过,我不认为说这样的话是不合时宜。”

  但是没几个人能预测到 Schroepfer 对我们的问题会作何反应。在其中 2 次采访中,对于 AI 可能会是解决方案他开始传递的是乐观的信息,然后就变得情绪化。他一度说有时候来上班都是一种挣扎。每次谈到 Facebook 所面临的问题规模以及他所担负的要改变局面的责任时,他都会哽咽。

  谈到那些有问题的帖子时他说:“永远都不可能降到0。”

  “多么沉重的负担,多么巨大的责任啊。”

  2013 年 12 月的一个星期天,Clément Farabet 走进了内华达太浩湖 Harrah 赌场酒店的这家顶楼套房。在里面,他受到了 Schroepfer 和扎克伯格的欢迎。

  扎克没有穿鞋。接下来的 30 分钟里,这位 CEO 穿着袜子来回踱步,一边跟纽约大学 AI 研究人员 Farabet 交谈。扎克伯格称 AI 是“下一个大事物”,是“Facebook 的下一步”。Schroepfer 则坐在沙发上,偶尔插插话来强调某一点。

  他们到城里来是为了招募 AI 人才。那一年太浩湖是 NIPS(神经信息系统处理大会)的举办地。而 NIPS 是专业的 AI 学术会议,每年都会吸引全球的顶级研究人员到来。Facebook 管理层已经引进了 Yann LeCun,这名纽约大学学者被认为是现代 AI 运动之父之一,被招进来后他创立了 Facebook 的 AI 实验室。把 LeCun 看作自己的导师的 Farabet 也在他们的最后人选当中。

  说到扎克伯格,Farabet 说:“他基本上谁都想要。他知道这一块的每一位研究人员的名字。”

  那段时间是 Facebook 令人陶醉的日子,然后他们的轨迹和 AI 工作的使命开始改变了。

  当时,从 Google 到 Twitter,硅谷最大型的科技公司都在争相成为 AI 的中坚。这种技术已被互联网公司摒弃了多年。但在大学,像 LeCun 这样的研究人员已经悄悄地培育出名为“神经网络”的 AI 系统,这种复杂的数学系统可通过分析海量数据自行学习任务。出乎硅谷许多人的意料,这些晦涩且多少有些神秘的系统终于开始工作了。

  Schroepfer 和扎克伯格希望把 Facebook 推入到这场竞争当中,把这一迅速改进的技术视为公司必须抓住的东西。AI 可以帮助该社交网络识别发布到网站上面的照片和视频中的人脸,Schroepfer 说,而且还可以用来进行更好的定向广告,组织其新闻流,并进行语言翻译。AI 还可以用来提供像“聊天机器人”这样的数字电子产品,让企业跟客户进行互动。

  Schroepfer 说:“我们打算招募全世界最好的人才。我们要建设新型的研究实验室。”

  从 2013 年开始,Schroepfer 就一直在招募专长神经网络的研究人员,当时该领域的明星酬金都是数百万甚至上千万美元(4、5 年期)。在 2013 年的那个星期天,他们并没有成功招到 Farabet,后者后来自己创办了一家 AI 初创企业,随后被 Twitter 收购了。但 Schroepfer 从 Google、NYU 以及蒙特利尔大学等处挖来了几十名顶级研究人员。

  Schroepfer 还组建了第二个组织,应用机器学习团队,任务是将 Facebook  AI 实验室的技术转化为现实世界的应用,比如脸部识别、语言翻译以及增强现实工具等。

  2015 年底,部分 AI 工作开始转化。催化剂是巴黎恐袭。在那场袭击中,伊斯兰激进分子杀死了 130 人,并导致 500 人受伤。事后,据匿名人士透露,扎克伯格问应用机器学习团队 Facebook 可以怎样去打击恐怖主义。

  作为回应,该团队利用新的 Facebook AI 实验室内部开发的技术来建设一套识别在该社交网络上宣传恐怖主义的系统。该工具会对 Facebook 里面提到了伊斯兰国或者基地组织的帖子进行分析,然后把那些最有可能违背公司反恐政策的帖子标记出来。然后再对帖子进行人工审核。

  这是 Facebook 利用 AI 查贴删贴的转折点。

  这项工作很快就有了强劲的发展势头。2016 年 11 月,特朗普当选美国总统,大家对 Facebook 网站成为虚假信息的温床开始抵制,因为那些虚假信息可能影响到投票并且为特朗普的胜选打下基础。

  尽管该公司已开始否认自己在虚假信息传播和选举中所扮演的角色,但仍开始在 2017 年初将技术资源转移到自动识别广泛的有害内容上,包括裸露照片和假账号等。它还设立了几十个“防垃圾(integrity)”岗位,专门来跟网站不同板块的有害内容做斗争。

  到 2017 年中,有害内容检测已经成为了应用机器学习团队工作的重心。Schroepfer 说:“我们的内容理解工作的头号优先事项显然是诚信。”

  然后,到了 2018 年 3 月,纽约时报等报道了英国政治咨询机构剑桥分析在未经同意的情况下收割来数百万 Facebook 用户的信息,然后为特朗普的竞选团队提供投票人的档案信息。对该社交网络的怒火开始爆发了。

  很快 Schroepfer 就被叫过去处理这起事件。2018 年 4 月,他被指定为主管飞到伦敦面对英国的一个议会委员会,去回答对方有关剑桥分析丑闻的质疑。在那里,他被议会委员会的成员拷问了 4 个小时。

  向全球直播的听证会期间,工党政客 Ian Lucas 对着面色铁青的这位主管发问:“Schroepfer 先生,你的头儿是不是诚信的?我仍然不相信你的公司具有诚信。”

  Forest Key 是虚拟现实初创企业 Pixvana 的 CEO,两人自从 1990 年代末一起在一家电影效果技术初创企业共事以来就认识了。他说:“我很难看得下去。这是多么沉重的负担啊。这是多么巨大的责任啊。”

  用 AI 来牵制 Facebook 的内容问题的挑战仍在继续——Schroepfer 的担子很重。

  “劝说工程师不要打退堂鼓”

  刚到 Facebook 的时候,Schroepfer 被看作是问题解决者。

  Schroepfer 从小在佛罗里达德尔雷比奇长大,他的父母经营着一个 1000 瓦的调频电台,先是放摇滚乐,后来又换成R&B,1993 年,Schroepfer 搬到了加州上斯坦福。他在那里本科和研究生读的都是计算机科学,跟 Lilly 和 Adam Nash(现为 Dropbox 的高管)这些技术专家混在一起。

  毕业后,Schroepfer 呆在硅谷,开始一段痛苦的技术事业。他先是在一家电影效果初创企业崭露头角,之后又成立了一家为大规模数据中心开发软件的公司,那家公司随后被 Sun Microsystems 收购。2005 年,他加入了 Mozilla 担任工程副总裁。这家非营利组织的浏览器挑战了微软 IE 浏览器的垄断。当时,没有什么技术任务比他们的项目要大。

  Mozilla 联合创始人 Mike Shaver 曾跟 Schroepfer 共事过几年,他说:“浏览器是复杂产品,当时的竞争格局很不可思议。甚至在他的职业生涯早期,我对他的处理能力也从来都没怀疑过。”

  2008 年,Facebook 联合创始人 Dustin Moskovitz 从工程负责人的位置退下。Schroepfer 加盟接管了他的角色。当时 Facebook 服务的用户约为 200 万人,他的工作是保证网站在用户数暴涨的情况下不间断运行。这份工作涉及到管理成千上万的工程师,以及全球数以万计的计算机服务器。

  Schroepfer 说:“大部分的工作就像是着火的巴士正在从山上滚下来但 4 个轮子都瘪了。问题是怎么让它继续走。”他的的一天很大一部分是“跟工程师谈话让他们冷静下来不要冲动想不干”因为他们整天都在处理问题。

  接下来的几年,他的团队开发了一系列的新技术来泡那么大的一个服务(Facebook 现在的用户已经超过 20 亿)。他们推出了新的编程工具帮助公司更快更可靠地把 Facebook 交付到笔记本和手机上。它引入了定制服务器到数据中心,让庞大的服务器计算机网络运营变得流畅。到最后,Facebook 显著减少了服务中断。

  Schroepfer 说:“我已经不记得上一次跟因为扩充问题而筋疲力尽的工程师对话是什么时候了。”

  因为这些努力,Schroepfer 的责任也越来越大。2013 年,他被提拔为 CTO。他的工作变成了着眼未来,跟踪公司应该探索的新的技术领域。想知道他的角色有多重要?他的办公桌就在扎克伯格的旁边,夹在这位 CEO 与 COO Sheryl Sandberg 中间。

  关于 Schroepfer,扎克伯格说:“他是公司很多人如何思考和运营的很好代表。Schrep 的超级能力可以跨不同问题领域教导和建设团队。我还没跟其他任何能够像他那样做到这一点的人共事过。”

  所以,毫不奇怪扎克伯格会找到 Schroepfer 去处理 Facebook 上所有那些有害内容。

  西兰花 vs. 大麻

  最近的一个下午,在一间 Facebook 的会议室,Schroepfer 从他的屁股笔记本电脑里取出了两张图片。一张是西兰花的图片,另一张是聚成一团的大麻花蕾。每个人都盯着这些图片。有的不大敢确定哪个是哪个。

  Schroepfer 展示这些图片是想说明一点。即便是我们当中的一些人分辨都有困难,但现在 Facebook 的 AI 系统能够从成千上万中图像中找出模式,从而自行分辨大麻的蓓蕾。一旦 AI 标记出大麻图片,其中很多都是附加在 Facebook 广告上,利用图片通过该社交网络卖大麻的,公司就会找出来删掉。

  Schroepfer 说:“现在我们可以主动逮住这类东西了。”

  问题在于大麻与西兰花之对决不仅是进展的信号,也是 Facebook 遭遇限制的标志。Schroepfer 的团队已经开发出公司用于识别和移除大麻图片、裸体及恐怖分子相关内容的 AI 系统。但是那些系统不能把那些图片全都揪出来,因为总会有预想不到的内容出现,意味着还是会有数百万裸体、大麻相关以及恐怖分子相关的帖子继续进入到 Facebook 用户的视线。

  识别流氓图片也是 AI 较为容易的任务之一。建造识别假新闻或者仇恨言论的系统会更困难。假新闻很容易就能塑造成看似真实的样子。仇恨言论也有问题,因为机器识别语言的微妙差别实在是太难了。很多微妙差异会因语言而异,而对话的上下文也会快速地演变,导致机器难以跟上。

  AI Foundation 是一家探索人工智能如何与虚假信息斗争的非营利组织。其研究负责人 Delip Rao 把这一挑战说成是“一场军备竞赛。”AI 是根据之前出现的东西搭建的。但没有任何东西可学的情况太常见了。行为改变。攻击者创造出新技术。显然,这是一场猫捉老鼠的游戏。

  Rao 说:“有时候你比那些导致伤害的人领先一步。有时候他们在你的前头。”

  那个下午,Schroepfer 试图用数据和数字回答我们有关猫捉老鼠游戏的问题。他说 Facebook 现在自动移除了该社交网络 96% 的裸体内容。仇恨言论更棘手一点,他说——公司目前只捕捉到其中的 51%(Facebook 后来说提高到 65% 了)

  Schroepfer 承认军备竞赛元素的存在。他说,尽管 Facebook 可自动检测和移除有问题的直播视频流,但并没有识别出 3 月份新西兰的视频,因为这段视频跟过去任何上传到该社交网络的内容都不一样。这段视频用的是第一人称视角,就像计算机游戏一样。

  在设计识别图像暴力的系统时,Facebook 一般都要后向拿现有图像进行处理——那些踢猫的人,狗攻击人,汽车撞上行人,一个人拿棒球棒挥向另一人等的图片。但是,他说:“那些跟这个视频均无太多的相似之处。”

  那次枪击视频的新颖性正是它之所以令人如此震惊的原因,Schroepfer 说。“这也是它没有马上被标记出来的原因。”,并且补充说自己看了那段视频好几次,以弄清楚 Facebook 下次可以如何去识别出来。

  最后他说:“我真希望自己没看过那些东西。”

  原文链接:https://nytlicensing.com/story/pLTjoQ94/

  译者:boxi。