儿童与AI如何探索新环境 DeepMind做了项比较研究-冯金伟博客园

  探索未知环境是人类行为的关键特征。与成年人相比,儿童进行探索的频率更高。这样的探索可以帮助儿童学习周围环境,获得更多的知识。这种能从抽象环境中综合学习的能力,未来或许能让人工智能(AI)受益。日前,全球最受瞩目的人工智能公司 DeepMind 就联合美国加州大学伯克利分校做了一项研究,比较儿童和 AI 了解世界的方式。他们的研究论文 5 月 6 日发表在预印本网站上。

  论文称,这项研究的目的是希望了解儿童探索学习的行为,从而缩小人工智能和人类在获得新能力方面的鸿沟。比如,这有可能可以帮助机器人在拾取和包装数百种不同类型的产品时,还能避免各种障碍。

  从过往的儿童行为研究中,我们已经了解到学龄前儿童完全可以自主在玩耍的过程中习得玩具是如何工作的,例如根据颜色确定积木的作用,然后儿童可以总结理论推断出新玩具或新积木的玩法。对于人工智能来说,它拥有近似的能力和适应性,但需要人为监督和干预。

  论文采用的方法结合了在 DeepMind 实验室里的实验设置,其中包括针对 AI 的导航和难题解决任务。这些任务需要 AI 具备物理或空间导航技能。在实验设置中,允许孩子通过自定义控制与 DeepMind 实验室进行交互。这个控制器包括前进、后退、左移和右转四个动作。

儿童与AI如何探索新环境 DeepMind做了项比较研究-冯金伟博客园

  儿童与 AI 在探索迷宫中的比较

  另一边,在加州大学伯克利分校的实验室中,研究人员则试图确定两件事:在未知环境,儿童的探索行为是否存在差异;以及与 AI 相比,儿童是否更容易适应一组特定的场景。

  在一项测试中,孩子需要完成两个迷宫,一个接一个,两个迷宫布局相同。孩子们在第一个迷宫中自由探索,但需要在第二个迷宫中找到橡皮糖。

  研究人员表示,在“无目标状态”的第一个迷宫中,孩子们的策略与 AI 领域里的深度优先搜索策略(DFS)相似,会沿着未走过的路径一直前进,直到达到死胡同,然后转向来探索他们看到的最后一条路径。而在第二个目标条件的迷宫中,儿童做出的选择与 DFS 一致的时间为 89.61%。相比同龄孩子,对环境探索更少的孩子花费的时间更长,平均需要 95 步,而探索更多的孩子则只需要 66 步就找到了橡皮糖。

  团队指出,这些行为与用于训练的 AI 相反。AI 的选择通常都非常偶然,它们通常会偶然发现一个区域很有趣,然后鼓励自己一直重新访问该区域,直到自己认为这个区域变得不再有趣为止。研究发现,与小孩掉未来探索更感兴趣相比,AI 更喜欢追溯过去的行为。

  研究中的另一项测试是告诉4-6 岁的孩子分三个阶段完成两个迷宫。第一阶段里,孩子们可探索迷宫,其中包括有无目标探索,有目标且没有立即奖励探索以及有目标并有奖励的密集探索。在第二阶段,孩子们的任务是再次寻找目标项目,该目标项目与探索期间的位置相同。在最后阶段,要求他们找到目标项目,但完成目标的最佳途径受阻。

  研究人员称,初步数据表明,在奖励密集的情况下,儿童探索区域的可能性较小。但是,缺乏探索性并不会伤害儿童在最后阶段的表现。对于 AI 而言,情况并非如此,通常,丰厚的奖励会使 AI 缺乏去探索的积极性并导致概括能力不佳。

  “我们提出的方法可以帮助我们识别在哪些领域里,人工智能和孩子采取了相似的行动,以及在哪些领域里,他们没有采取相似行动。这项研究仅是儿童和人工智能在探索方面的初始研究,在提出新的问题时,我们可以通过研究对儿童和 AI 探索新环境的方式,以及他们是如何探索的进行深入了解,从而缩小两者之间的差距。”论文作者在论文里称。