《Nature》最新研究：大脑中存在分布式强化学习机制

作者 | DeepMind

编译 | 雷锋网 AI 科技评论

雷锋网(公众号：雷锋网)编者按：人工智能与神经科学/脑科学之间存在剪不断理还乱的关系。从人工智能诞生之初，其研究就深受神经科学的影响，包括人工神经网络、强化学习等诸多算法；最近较火的类脑计算，更是提出“brain-inspire”的想法。然而，我们常听，人工智能研究受神经科学/脑科学启发；那么，神经科学/脑科学的研究能否受人工智能研究的启发呢？

DeepMind最近发表在《Nature》上的文章正是这样的的典范，在分布式强化学习的启发下，他们研究了小鼠多巴胺细胞的生理机制，发现大脑中同样在使用「分布式强化学习」。这样的研究，一方面促进了神经科学的发展，另一方面也验证了AI研究走在正确的道路上。学习和动机是由内、外部奖励所驱动的。我们的许多日常行为都以预测或预测给定的行动是否会带来积极的（即有益的）结果为指导。

巴浦洛夫在他最著名的实验中，训练狗在铃声响起后会产生期待食物的反应，这些狗在食物到达之前听到声音就开始流唾液，这表明它们已经学会了预测奖励。在最初的实验中，巴甫洛夫通过测量它们产生的唾液量来估计它们的期望。不过最近几十年中，科学家们开始破译大脑如何学习这些期望的内部运作方式。

与神经科学家的研究同时，计算机科学家们也在人工系统中不断地开发强化学习的算法，这些算法使AI系统不需要外部指导（而是由奖励预测指导）即可学习复杂的策略。

DeepMind近期发表在Nature上的一项新的工作是，受计算机科学最新的研究（对强化学习算法的重大改进）启发，他们为大脑中奖励学习的一些以前无法解释的特征提供了一个深刻而简约的解释，并由此开辟了研究大脑多巴胺系统的新途径。可谓是人工智能研究反哺神经科学/脑科学的典范。

预测链：时间差分学习

强化学习是人工智能与神经科学结合形成的最为「古老」且强大的思想，早在80年代末就已经出现。当时的计算机科学研究人员试图设计一种算法，把奖励和惩罚作为反馈信号融入到机器的学习过程，目的是让机器能够自动执行复杂的行为。奖励行为可以强化机器的行为，但是要解决一个特定的问题，即必须了解当前机器的行为如何带来未来的回报；为了预测某项行为带来的未来的总回报，通常有必要对未来采取许多措施。

时间差分算法（TD）的出现为解决奖励预测问题找到额突破口，TD使用一种数学技巧，通过一个非常简单的学习过程代替对未来的复杂推理，还能得到相同的结果。简单的说，TD算法并不计算所能得到的未来的总回报，而是仅仅预测即时奖励以及下一步骤所能获得的奖励。然后，当下一刻出现新信息时，将新的预测与预期的进行比较。

如果它们不同，则算法会计算出它们之间的差异，并使用此“时间差分”将旧的预测调整为新的预测。不断调整，使期望与现实相匹配，从而使整个预测链逐渐变得更加准确。大约在20世纪80年代末和90年代初，神经科学家研究了多巴胺神经元的行为，并发现此神经元的放电和奖励有某种关系，而且这种关系依赖于感觉输入，并且如果研究目标（例如动物）在一项任务中变得更加有经验，则这种关系也会发生改变。

20世纪90年代中期，有一批科学家同时对神经科学和人工智能都非常精通。他们注意到：有一些多巴胺神经元的反馈意味着奖励预测的错误，例如与训练时的预期相比，当动物得到过多或过少的奖励时，这些多巴胺就会放电发出信号。这些科学家于是提出了大脑使用的TD算法，即考虑多巴胺的反馈，并用于驱动学习。此后这种多巴胺奖励预测误差理论（ reward prediction error theory of dopamine）在数千个实验中得到验证，并成为了神经科学中最成功的定量理论之一。

分布式强化学习

计算机科学家的脚步并未停留于此，自2013年以来，越来越多的研究人员开始关注深度强化学习，这种在强化学习中用深度神经网络来学习表示的算法，能够极为有效的解决复杂问题。

雷锋网注：图1 ：概率表示未来可能得到的奖励，如上图所示，红色表示正向结果，绿色表示负向结果。

分布强化学习是其中的代表，它能让强化学习发挥出更加优异的效果。在许多情况下（尤其是在现实世界中），特定动作所产生的未来奖励具有随机性。如上图所示，图中的“小人”并不知道是跨过缺口，还是掉进去，所以预测奖励的概率分布图形出现了两个凸起：一个代表跌落；一个代表成功跨过。传统的TD算法采用的方式是预测未来奖励的平均值，这显然无法获得奖励分布的两个峰值（凸起），这时候分布强化学习则可以预测到所有的可能性。

悲观/乐观预测谱

最简单的分布强化学习算法与标准TD密切想关，这种算法也称为分布式TD。两者的区别是：标准TD算法学习单个预测或者预测的期望值；而分布式TD则学习的是一组不同的预测，这组预测中的每一个都采用标准TD方法学习。但关键的因素是，每个预测器都会对其奖励预测误差应用不同的转换。

图2：a：“悲观的”细胞将放大负向奖励或忽略正向奖励，乐观的细胞将放大正向奖励或忽略负向奖励；b：奖励累积分布图；c：奖励的完整分布图

如上图a所示，当奖励预测误差为正时，一些预测器有选择地“放大”或“加码”奖励预测误差(RPE)。与奖励分配的较高部分相对比，这种方法能够让预测器学习到一个更乐观的奖励预测。同样如上图所示，其他预测因子放大了它们的负奖励预测误差，因此学习更悲观的预测。综上所述，包含悲观和乐观奖励的预测器能够绘制完整的奖励分布图。除了简单之外，分布式强化学习的另一个好处是，与深度神经网络结合使用时，它会非常强大。在过去5年中，基于原始的深度强化学习DQN agent的算法取得了很大进展，并且经常在Atari 2600游戏的Atari-57基准测试集上进行评估。

图3：将经典的深度强化学习与分布强化学习进行对比，在Atari-57基准上的标准化得分中位数（Atari-57 human-normalised scores）

图3比较了在相同基准下经过相同条件训练和评估的多个标准RL和分布式RL算法。分布式强化学习agent以蓝色显示，可以看出取得了显著的提升。其中的三种算法（QR-DQN，IQN和FQF）是我们一直在讨论的分布式TD算法的变体。为什么分布强化学习算法如此有效？虽然这仍然还是一个活跃的研究课题，但其中一点则在于了解奖励的分布情况会为神经网络提供更强的信号，从而以一种对环境变化或策略变化更具鲁棒性的方式来塑造其表示形式。

多巴胺中的分布式代码

由于分布式时间差分在人工神经网络中的功能如此强大，一个科学问题随之出现：分布式时间差分能被应用到大脑中吗？这就是驱动研究者开始这篇《Nature》论文工作的最初动机。在这篇论文中，DeepMind与哈佛Uchida Lab 合作，分析了他们对小鼠多巴胺细胞的记录。这些记录记下了小鼠在一项任务中表现出的学习能力，在任务中，它们获得了意料之外的大量的奖励（如图4的彩图所示）：

图4：在该任务中，小鼠被给予随机确定、容积可变的水奖励，容积从0.1ul到20ul不等（奖励大小由掷骰子决定）：（A）经典TD 模型下模拟的多巴胺细胞对7种不同奖励大小的反应；（B）分布式TD 模型下，每一行点对应着一个多巴胺细胞，每一种颜色对应着不同的奖励大小，颜色曲线表示数据的样条插值。一个细胞的“反转点”（细胞的奖励预测误差、放电率在0值处相交）就是特定细胞将奖励“调”到的预期奖励，例如，由于奖励大小达到了细胞的期望，所以它的放电率与它的基线率相比不多也不少；（C）实际多巴胺细胞对其中不同奖励大小的反应，与分布式TD模型的预测非常接近。

插图展示了三个对正向和负向的奖励预测误差有不同的相对缩放比例的示例细胞。研究者评估了多巴胺神经元的活动是与「标准的时间差分」还是与「分布式时间差分」更加一致。如上所描述的，分布式时间差分依赖于一组不同的奖励预测。

因此，研究首要的问题便是，是否能够在神经数据中找到这些真实多样的奖励预测。在此前的工作中，研究者了解到多巴胺细胞会改变它们的放电率，来暗示出现了预测误差，也就是说，当动物获得了比它们的预期更多或更少的奖励，就是发生了预测误差。

而当细胞获得了与它的预测恰好相等的奖励，预测误差就为0 ，从而其放电率也不会发生任何变化。研究者为每个多巴胺细胞决定好不会改变它的基线放电率的奖励大小，对此研究者称之为细胞的“反转点”。他们希望能够了解到，细胞与细胞之间的“反转点”是否不同。

在图4c中，作者展示了细胞之间的显著差异，一些细胞预测的奖励非常大，而另一些细胞预测的奖励却非常小。这些差异超出了预期从记录中原有的随机变异性，所看到的差异程度。在分布式时间差分中，奖励预测中的这些差异源自于正向或负向的奖励预测误差的选择性放大。放大正向的奖励预测误差，会造成学习的奖励预测更乐观；而放大负向的奖励预测误差，则会带来悲观的奖励预测。

所以研究者接下来测量了不同多巴胺细胞表现的不同正向和负向预测的相对放大程度。在细胞间，研究者发现了可靠然而却无法用噪声来解释的多样性。并且最关键的是，研究者发现，放大了正向奖励预测误差的相同的细胞，也有更高的反转点（图4c，右下角图），也就是说，它们显然将反转点调整到了更高奖励量的预期。最后，分布式时间差分理论预测出，细胞之间不同的“反转点”、不同的不对称性应该一起对学到的奖励分布编码。所以最后一个问题就是，是否能够基于多巴胺细胞的放电率对奖励分布解码。

图5：多巴胺细胞作为一个群体，对学到的奖励分布的形状进行编码：可以给予放电率对奖励分布编码，灰色的阴影区域是任务中遇到的真实的奖励分布。每条浅蓝色的轨迹都显示了执行解码过程的示例。深蓝色表示的是浅蓝色轨迹平均超出灰色区域的部分。

如图5所示，研究者发现仅使用多巴胺细胞的放电率，完全有可能重构一个奖励分布（蓝色轨迹），这与小鼠参与任务中的实际奖励分布（灰色区域）非常接近。这一重构依赖于将多巴胺细胞的放电率解译为分布时间差分模型分布的奖励预测误差并进行推理以确定模型已经了解的分布。

总结

总结来说，研究者发现大脑中的每个多巴胺神经元都被调到了不同的积极或消极程度。要是它们是一个唱诗班，它们唱的并不是一个音符，而是在唱和声，它们都像低音或女高音歌手一样，有着各自始终如一的声带。在人工强化学习系统中，这种多样的调整，创造了更加丰富的训练信号，极大地加速了神经网络中的学习速度，研究者推断大脑也会出于这种考量而去采用这种多样的调整方式。大脑中现存的分布式强化学习，对AI 和神经科学都有着非常有意思的影响。

首先，这一发现验证了分布式强化学习，让我们更加坚信：AI 研究正走在正确的轨迹上，因为分布式强化学习算法已经应用于我们认为最智能的实体：大脑。其次，它为神经科学提出了新问题，并为理解心理健康和动机提供了新的视角。

《Nature》最新研究：大脑中存在分布式强化学习机制

被Visa斥资53亿美元收购，金融科技公司Plaid是何方神圣？

快手春晚10亿元红包玩法曝光：最小金额66.6元

最新文章

「经验分享」单位规模如何填写

ai复制快捷键（复制与粘贴的几种办法）

探路者和骆驼哪个好(探路者冲锋衣什么档次)

太监怎么净身（揭秘太监净身全过程）

破折号的作用

圭吾怎么读(东野圭吾什么意思)

防晒口罩巾怎样做

学困生转化措施（以及转化学困生的三项策略）

半斤多少克(一斤等于多少两)

柠檬炸鸡的做法

标签

热评文章

国内手机最新周销量排名曝光：iPhone 16系列霸榜前三

真我Neo7 SE即将发布：2K档耐玩战神＋年度续航之王

卢伟冰：Ultra用户见证了小米冲击高端非常感谢他们

潮汐app怎么听到梦话记录

电信王卡怎么查看流量剩余电信王卡怎么查看流量剩余多少(电信怎么查流量剩余)

《Nature》最新研究：大脑中存在分布式强化学习机制

被Visa斥资53亿美元收购，金融科技公司Plaid是何方神圣？

快手春晚10亿元红包玩法曝光：最小金额66.6元

最新文章

「经验分享」单位规模如何填写

标签

热评文章

国内手机最新周销量排名曝光：iPhone 16系列霸榜前三

真我Neo7 SE即将发布：2K档耐玩战神＋年度续航之王

卢伟冰：Ultra用户见证了小米冲击高端 非常感谢他们

潮汐app怎么听到梦话记录

电信王卡怎么查看流量剩余 电信王卡怎么查看流量剩余多少(电信怎么查流量剩余)

关注我们的公众号

卢伟冰：Ultra用户见证了小米冲击高端非常感谢他们

电信王卡怎么查看流量剩余电信王卡怎么查看流量剩余多少(电信怎么查流量剩余)