用户聊天内容不能白用,Reddit将向OpenAI等收费
4月19日消息,微软、谷歌和OpenAI一直在利用Reddit论坛上的用户聊天数据来开发新的人工智能系统。现在,Reddit打算向这些公司收取使用费。
Reddit一直是互联网上热门话题的讨论集中地,每天有大约5700万人访问这个网站讨论各种话题,包括化妆技巧、电子游戏到自动洗车机等等。
近年来,Reddit论坛上的聊天内容已成为谷歌、OpenAI和微软等公司的免费训练工具,用于开发人工智能系统。现在,许多业内人士认为,这些人工智能系统将成为科技行业的下一个大事件。
因此,Reddit打算向开发人工智能技术的公司收费。许多公司都通过应用程序编程接口(API)下载并处理论坛上的聊天内容。周二,Reddit表示计划开始向使用API的公司收费。
Reddit创始人兼首席执行官史蒂夫·霍夫曼(Steve Huffman)在接受采访时表示:“Reddit的数据库确实很有价值,我们没有必要免费提供这些价值给世界上最大的公司。”
Reddit此举是社交网络首次明确向OpenAI等收取费用开放访问权,用于开发像ChatGPT这样的人工智能系统。ChatGPT等新人工智能系统可能有一天会成为大企业,但对Reddit等公司的帮助不大。相反,这些人工智能系统还可以自动生成聊天内容,成为Reddit的竞争对手。
Reddit正在为今年可能上市做准备,该公司成立于2005年,目前主要依赖平台广告和电商交易进行盈利。Reddit方面表示,正在敲定API接口的收费细节,并将在未来几周内公布价格。
如今,大型语言模型已成为开发人工智能新技术的重要组成部分,Reddit论坛上的用户聊天内容也成了有价值的商品。
谷歌人工智能聊天机器人Bard的底层算法之一就是用Reddit聊天数据训练的。同时,OpenAI的ChatGPT也将Reddit的数据作为训练大型语言模型的信息之一。
除此之外,其他公司也开始意识到平台上所存储的聊天内容和图片的价值。图片托管服务Shutterstock已经把图像数据出售给OpenAI,帮助开发了能够根据简单文字提示就能生成图像的人工智能系统DALL-E。
目前,有几千家公司和大小开发者都在使用API跟踪推特平台上的几百万条聊天内容。上个月,个人社交媒体平台推特所有者埃隆·马斯克(Elon Musk)表示,他正在改变使用推特API的现行方式,要为使用API收取几万到几十万不等的费用。不过马斯克没有提到大型语言模型是促使他做出改变的原因。
为了不断改进模型,人工智能企业需要两个重要因素:强大的计算能力和大量可用的数据。一些大型人工智能开发企业通常拥有足够的算力,但仍会在互联网上寻找改进算法所需的数据。其中包括维基百科、各种数字化书籍、学术文章和Reddit论坛上的聊天内容等资源。
谷歌、OpenAI和微软等公司目前尚未对Reddit计划收费的事宜作出回应。
很长一段时间以来,Reddit与谷歌和必应等搜索引擎一直是相互依存的关系。它们自动获取Reddit网页信息,进行索引,然后将相关信息展示在搜索结果页面中。虽然这种自动抓取方式不见得受到所有网站的欢迎,但是Reddit却能因此在搜索结果中排名靠前。
而大型语言模型则完全不同,它需要尽可能多地获取数据,这样才能创建新的人工智能系统。
Reddit认为,它的论坛数据特别有价值,因为它不断更新。霍夫曼表示,这种新鲜度和相关性正是大型语言模型算法生成最佳结果所需要的东西。
“Reddit比互联网上任何其他地方都更适合聊天,”霍夫曼说。“网站上有很多内容是你只会私下里说的,或者压根就不会说的东西。”
霍夫曼还强调,对于想要开发帮助人们使用Reddit的应用程序开发者来说,API仍然是免费的。比如开发者可以免费使用API等工具来开发机器人,自动跟踪用户评论是否遵守了内容发布规则。出于学术研究或非商业目的来研究Reddit数据的人也能继续免费访问这些数据。
Reddit还希望将更多机器学习融入论坛运营,例如,Reddit可以用机器学习来识别平台上人工智能生成文本的使用情况,并为其添加标签,告知用户哪些评论是来自机器人。Reddit还承诺改进供论坛版主使用的软件工具,帮助他们监控论坛上的第三方机器人。
但对于人工智能制造商来说,Reddit认为是时候付费了。
“通过抓取Reddit的数据来创造价值,却不向我们的用户返利,这是我们自己的问题,”霍夫曼说。“现在是我们加强管理的好时机。”