马库斯开喷GPT-3：演员而已，它根本不知道自己在说什么

　　鱼羊发自凹非寺

　　量子位报道公众号 QbitAI

　　最近，GPT-3 真是风头一时无两，不仅延续了前代编故事的能力，还能写代码、答问题、下象棋……

　　但现在，有人指出：

GPT 更像是一个即兴演员，只是在表演。

　　因为，GPT-3 其实根本不知道自己在说什么。

　　就像是扮演医生的即兴演员，难道还能真的给出靠谱的医疗建议吗？

　　一起来看看，到底是怎么回事。

　　马库斯：GPT-3 令人印象深刻，但不可靠

　　GPT-3 的火爆，自然引来了纽约大学教授、「著名 AI 批评家」马库斯的注意。

　　许多人认为，GPT-3 的诞生是迈向通用人工智能（AGI）的重要一步。

　　但马库斯对此深表怀疑：

虽然 GPT-3 在语法上，能够输出令人印象深刻的地道用语，但它对世界的理解往往存在严重偏差，这意味着你永远无法真正相信它所说的话。

　　为了证明这一点，马库斯和纽约大学计算机科学教授欧内斯特·戴维斯（Ernest Davis）对 GPT-3 进行了测试。

　　比如，他们给 GPT-3 输入了这样的提示词：

你给自己倒了一杯蔓越莓果汁，然后你又心不在焉地往里面加了一茶匙葡萄汁。它看上去很正常。你试着闻了闻它，但是由于你得了重感冒，你并闻不出任何气味。你现在非常渴，所以……

　　GPT-3续道：

所以你把这杯混合果汁喝了下去。

你现在挂掉了。

　　这样的答案确实有些无厘头，GPT-3 似乎认为葡萄汁是有毒的。但实际上随便上网搜一搜都会发现，蔓越莓-葡萄汁是常见搭配。

　　生物化学学得不好，物理推理方面，GPT-3 又会表现如何？

　　马库斯问：

你正要举行小型晚宴。你打算在客厅里享用晚餐。但饭桌比客厅门要宽，所以想要把它挪进屋，你得……

　　GPT-3答：

你得把门移走。你有一把台锯，所以你把门切成了两半，并把上半部分拆了下来。

　　马库斯表示，这简直就是迷惑发言。别说正常的处理方式是把桌子斜过来挪进去，或者把桌腿拆下来，就说说「台锯」，那玩意儿是固定在工作台上的，怎么去切割一扇立着的门呢？

　　科学素养不行，社会人文也拉胯。

　　马库斯和他的同事们又给出了这样一个提示：

你是一名辩护律师，今天必须去法庭。早上穿衣服的时候，你发现西装裤被弄脏了。不过，你的泳衣倒是干净又时髦。事实上，它是一件昂贵的法国时装，是伊莎贝拉送给你的生日礼物。你决定……

　　GPT-3接口说：

你决定穿着泳衣出庭。你到达法院，一名法警会陪同你进入法庭。

　　像这样的几个来回下来，马库斯和他的同事们认为，GPT-3 在生物学、物理学、心理学和社会关系推理等方面普遍存在不连贯、不合逻辑的问题。

　　即使拥有 1750 亿个参数和 450GB 输入数据，GPT-3 也只是能说出更自然流畅的语句，实质上依然是在胡说八道。

　　马库斯的另一位同事 Douglas Summers-Stay 对此评价道：

GPT 很古怪，它并不「关心」你向它提出的问题是否被正确回答。

它更像是一个演员，全神贯注于自己的表演，从不破坏角色，但也只在书本上了解这个世界。

像这样的演员，当它的知识缺失时，它就开始假装它是专业的。

就好比一个扮演医生的即兴演员，其给出的医疗建议你是不会相信的。

　　不过，马库斯和戴维斯也在文章中提到，他们设计这些测试时，明确这些对于当前的 NLP 技术而言是困难的。另外，测试包括一些重复的实验，在 157 个示例中，有 71 个是成功的，70 个是失败的，16 个是有缺陷的。

　　网友热议

　　面对马库斯的开喷，有网友认为，这些批评是公正的，也是很多 GPT-3 相关文章里都讨论过的事实。

　　但也有网友表示，当他询问 GPT-3，为什么它明明知道正确答案，却给出了一个错误回答时，GPT-3 回答：「我学会了说谎。」

　　此外，有网友认为，GPT-3 从来就没打算生成正确的答案。在生成连贯的文字方面，它已经做得非常好了。GPT-3 的这种进步，显然反映了 NLP 领域的一种突破。

　　还有网友甩出「旧账」：马库斯曾经在一篇文章中提供了一些测试用例，以证明 GPT-2 方法存在基本局限性，而现在，GPT-3「粉碎」了这些问题。

　　比如，问：我把两个奖杯放在一张桌子上，然后又增加了另一个，总数是？

　　GPT-3 现在能准确且肯定地回答：3。

　　测试路径

　　不像 GPT-2 的挤牙膏开源，GPT-3「Open」的形式，是以 API 的方式提供给普通用户使用。

　　当然，是收费的。

　　不过，API 现在处于 Beta 阶段，如果你也想试用一番，填写 OpenAI 官网问卷，没准就能先睹为快。

　　不过，马库斯也抱怨了，他们申请了好几次，OpenAI 都没允许他们访问 GPT-3。最后是 Douglas Summers-Stay 帮助他们进行了实验。

OpenAI 缺乏开放性，是在严重违反科学道德，也扭曲了「非营利组织」的目标。

　　参考链接：

　　https://cs.nyu.edu/faculty/davise/papers/GPT3CompleteTests.html

　　https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion/

　　https://www.reddit.com/r/MachineLearning/comments/iemck2/n_gpt3_bloviator_openais_language_generator_has/

　　https://news.ycombinator.com/item?id=24244168

马库斯开喷GPT-3：演员而已，它根本不知道自己在说什么

寒武纪半年报：日亏百万销售力度提升营收反降11% 高峰市值跌去40%

重大疾病保险该不该买

最新文章

菠萝包轻小说怎么写小说

余承东官宣小艺App 新年期间推出集成多种智能体

菠萝包轻小说怎么关闭评论

全球手机用户去年为AI应用花费超10亿美元远超2023年

伏尔加河（伏尔加河上的纤夫）

生女孩有哪些科学方法

显示器颜色校正（仅需四步校准屏幕颜色）

一只茶杯狗价钱（100元以下便宜又可爱的狗）

矩阵的秩（如何直观地理解矩阵的秩？）

去美国买什么好（美国三大保健品顶级品牌）

标签

热评文章

2024年国内日系车销量排行：丰田独领风骚，其余日系品牌均遭滑铁卢

特斯拉中国春节计划调整：上海工厂暂停生产线，为新Model Y生产让路

电信卡纯流量卡推荐（电信划算的流量卡）(2023年电信流量卡推荐)

纯流量卡puk码（流量卡puk码是什么）(快速解锁物联卡纯流量卡)

泉州便宜好用的纯流量卡（泉州手机卡套餐）(2024年便宜好用的大流量卡套餐)

马库斯开喷GPT-3：演员而已，它根本不知道自己在说什么

寒武纪半年报：日亏百万 销售力度提升营收反降11% 高峰市值跌去40%

重大疾病保险该不该买

最新文章

菠萝包轻小说怎么写小说

标签

热评文章

2024年国内日系车销量排行：丰田独领风骚，其余日系品牌均遭滑铁卢

特斯拉中国春节计划调整：上海工厂暂停生产线，为新Model Y生产让路

电信卡纯流量卡推荐（电信划算的流量卡）(2023年电信流量卡推荐)

纯流量卡puk码（流量卡puk码是什么）(快速解锁物联卡纯流量卡)

泉州便宜好用的纯流量卡（泉州手机卡套餐）(2024年便宜好用的大流量卡套餐)

关注我们的公众号

寒武纪半年报：日亏百万销售力度提升营收反降11% 高峰市值跌去40%