机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?-冯金伟博客园

  图片来源@视觉中国

  文丨脑极体

  在《三体》当中,大刘为三体文明设计了一种“思考即说话”的意念交流方式。在严酷的三体环境下,三体人正是依靠这种高效无误的意念交流方式,实现了知识的无障碍共享、理性决策的高度统一,才能创造出如此高度发达的文明成果和整齐划一的社会体制。

  这一思路就如同去中心化的分布式计算机,只要建立联接,每一台独立的计算机单元都可以获知其他计算机单元的数据,每一台计算机单元理论上也都能够共享共同的执行命令。

  反观人类,我们就显得有些“低能”了。首先,我们每个人的大脑都像是一块白板,任何的数据信息都需要经过大脑的发育和长期的经验训练才可能学到一星半点的知识;其次,我们的大脑又仿佛一个神秘黑箱,每个人都只能通过外在的语言、表情、姿态等信号来识别对方的动机,所谓知人知面不知心就是这个意思。再次,我们的数据信号的输出又非常低效,我们只能以这种每秒钟几 KB 的语音、词汇等信息来输出想法,严重制约了沟通效率。

  可能有人会质疑,我们有必要向三体人那样通过“意念”直接交流吗?假如有一天我们的思想真的可以直接交流,即便有那么多的好处,同样那些个人的贪念、恶意也无法隐瞒,这些对我们人类来说都可能是一场巨大灾难。

  在高等文明来临前,私欲和恶意就会将人类推进深渊。不过,这种推论仍然是杞人忧天。

  一方面目前这种程度的“脑机接口”技术的实现还遥遥无期;另一方面,一旦人类动了“意念交流”的念头,只要技术有任何可能的突破,好奇心都会驱使那些最聪明的人去实现它。至于技术出来是否“洪水滔天”,那就事后再说了。

  当前来看,脑机接口技术正在取得一些显著的进展。最近一项可以称之为脑机语言翻译的技术,又实现了新的突破。

  3 月底,在 Nature 杂志的副刊《神经科学》上面,来自美国加州大学旧金山分校的研究人员发表了一项新的研究,他们利用机器学习的方法,可以把脑电波信号直接翻译成了有意义的语音和文字,翻译准确度得到大幅提高,最低错误率只有3%。

  这一结果是如何实现的,这一研究意味着什么,距离实现“意念交流”还有多远?这些正是我们接下来要讨论的内容。

  人脑语言翻译规律,机器学习很有一套

  我们先来还原一下这项实验的过程:研究人员找到四名患有癫痫的受试者,事先在其大脑的控制发音的脑区植入电极装置。在实验中,受试者需要先在一个有限的词语库里,反复地朗读一些句子。电极装置就可以在过程中捕捉朗读瞬间活跃的脑电波信号。

  
机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?-冯金伟博客园

  (记录大脑活动的颅内 ECoG 电极阵列)

  然后,研究人员就可以在在收集到的信号和语句库之间找规律,把跟控制发声动作相关的脑电波信息提取出来。接着就可以通过机器学习对这些数据进行训练,使得 AI 可以在脑电波信号和语句库之间建立起映射关系的模型。

  最后,你只要在大脑中想象自己说出词语库内的某一句话,AI 程序就可以根据训练后的映射关系,来识别你的内心独白了。

  
机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?-冯金伟博客园

  (通过声波动作的脑电波信号识别语音)

  由此可知,实验得以成功的前提就是复杂的脑电波信号和明确的语词之间,可以建立一套准确的映射关系。那么基于数据标记的有监督的机器学习就很容易在训练中“找到规律”。

  论文中还表明,AI 在学习识别人类脑电波的速度非常快。实验结果显示,只要经过大概 40 分钟语音数据的简单训练,语音相关的脑电波的 AI 翻译,就可以达到比较高的准确率了。其中效果最好的一名受试者,在仅仅经过 9 次数据训练之后,词错率就降到只有3% 了。这个词错率已经接近于迄今为止 AI 读取人的想法的最佳表现。研究人员认为,如果再经过更多的训练,识别的效果还会进一步上升。

  当然,这套映射规则是限定语种、限定语句库和限定测试者的基础上完成的。

  首先,在这次的研究中所使用的语句库,只包含 100 多个词汇,50-60 个句子,比我们日常交流的语句库少很多。

  其次,脑电波的识别是在同一个人的人脑中完成的,也就是还不能证明,不同人之间,脑电波信号的识别规律是否具有迁移性。

  很显然同样的一句话,受到不同语言背景、不同理解能力,甚至更为复杂的生理因素的影响,在不同的人脑中,形成的脑电波可能是完全不同的。

  这可能就需要针对每个人的脑电波信号的特点,分别建立完全不同的 AI 识别模型。这也意味着大脑信号之间的直接交流几乎很难实现,仍然需要具有公共涵义的共同语言作为中介来实现思想的交流。这也是哲学家维特根斯坦提出的“没有私人语言”的一种现实困境吧。

  那么,如果 AI 对于脑电波的文本翻译能够达到实际应用的程度,这项技术对于我们意味着什么呢?

  让失语者重新“说话”,脑机语言翻译大有作为

  我们先来理解下这项脑机语言翻译的真正意义。在人类的漫长进化史中,大脑的复杂和语言的出现成为一对互为因果的因素,帮助人类从严酷的自然环境中胜出,建立起复杂的文明和文化形态。也就是从人之为人的数万年时间里,我们人类的最主要交互方式就是语言,以及在语言基础上衍生出的文字、信号等沟通方式。

  而这次脑机语言翻译的出现,意味着人类的交互方式出现了新的形式,也就是由大脑信号直接转化为语言信号。尽管如我们所说,这一方式离三体人的“意念交流”还有很大距离,但已经是在向这一“意念交流”的方向前进了一大步。

  至于现实意义呢?对于普通人而言,无论是谁也不会轻易尝试在大脑中植入一块电极装置,再是日常语言交流仍然是最廉价、最高效地表达信息的方式。短期内,我们还是会习惯语音和手指作为信息输入的主要手段。

  那么,这项技术最靠谱的实际应用场景就是针对那些失去语言能力或写字能力的患病人群了。事实上研究者的出发点正是帮助因为中风偏瘫、渐冻症或者其他因神经系统疾病而丧失语言功能和沟通能力的人们,恢复语言沟通能力。而 AI 脑机语言翻译,就成为他们重新获得与世界沟通的工具。

  在这项技术实现之前,帮助失语者沟通的主要脑机接口技术就是“脑控打字”,也就是通过采集脑信号,控制光标选择字母,然后组成单词后输出。这个领域做到最好效果的 Facebook 也只能做到每分钟最多打 8 个单词。

  在脑控打字难以突破效率难关的情况下,AI 脑机语言翻译可以直接完成脑电波信号到语言转化,效率一下子提高到了正常人的语速水平。这让失语者进行语言输出产生了飞跃的进步。

  但现实问题仍然存在,因为这些测试者都是可以正常说话的,那么从他们身上采集数据训练而成的 AI 算法,是否可以应用到中风病人或者渐冻人身上呢?

  正如我们上面所述,每个人的脑电波的信号采集可能存在一些差异,那么 AI 算法可能会因人而异,因此很难进行不同人之间的迁移。

  那么就目前来说,只能是在有中风或渐冻症发作前或严重前,提前采集他们的脑电波信号,形成专属的 AI 翻译模型,才可能真正帮助患者。

  脑机语言翻译都来了,那“意念交流”还有多远?

  相较于我们习以为常的 AI 语音识别技术,AI 脑机语言翻译看起来就已经非常令人惊叹了,那么要是达到用“意念交流”的脑脑交互的水平,那就有点天方夜谭的感觉了。

  所谓的脑脑交互,那就是不再借助语言而直接依靠脑电波信号进行人际之间的沟通。这种就类似于三体人的思想共享,《阿凡达》里的人兽联机的技术。

  一般来说,我们通过语言传输大脑信息,必然就存在着信息缺失、传输损耗以及效率低下的问题。翻译成人话就是,我们经常词不达意、左耳朵进右耳朵出,写篇文章好几天,聊个天就大半天过去。

  脑脑交互则可以大幅提升人们之间交流的速度和信息量,能够保留和传输真实无损的大脑信息,避免误会,从而根本改变人类的协作方式。

  脑脑交互并非完全的空想,现在也有一些基础的实验证实了这一可能性。比如 2018 年华盛顿大学,通过以下实验,让三个相互隔离的人带上了脑电图头盔这种非侵入式脑机设备,纯靠看和想,共同协作,来完成俄罗斯方块游戏。其中 2 个人负责观察底部情况和下落的方块形状,操控手柄的人则完全不知道状况,只能让这两个人产生脑电波信号,通过一种叫 TMS 的磁刺激方式来传递信息给操控者的大脑,让其大脑产生操作的指令。

  经过 5 组不同的实验中,这种脑脑交互传达信息的准确率达到了 81.25%。虽然还远远达不到人类之间传输信息需要的准确率和复杂度,但是这一实验带来脑脑交互的一种可能性。

  但是可能性并不意味着现实性。这一点可能性之后仍然要面对大脑这个神秘黑箱制造的无尽难题。

  
机器学习实现了脑机语言翻译,那距离“意念交流”还有多远?-冯金伟博客园

  (大脑皮层的语言分区)

  目前,神经科学家已经知道人类的认知功能跟大脑的分区有关。研究人员可以通过对大脑神经活动的空间和时间信号进行高分辨率的数据采集,并配合机器学习算法将各种感知觉、运动、语言等高级认知功能所对应的神经信号互相分离出来。然后,可以实现像一些基本的脑机语言翻译这样的功能。

  但是真正实现语言的解码翻译其实还要面临众多的困难。除了上面提到的声波信号对于每个人的脑区的刺激会因人而异之外,由于世界上有上万种的语言及方言,同一个语义在不同语言和方言下可能对应着不同的脑电波信号。甚至于不同年龄、不同成长环境,不同的情绪状态都有可能导致完全不同的脑电波信号。

  此外,我们阅读文字也可以引发语言相关的脑电波活动,这肯定与语音刺激的反应又不相同。同样,不同的文字形态又会带来不同的脑电波信号模式。

  也就是实验室状态下的无干扰的测试结果,极难应用到现实场景当中。要实现如此多复杂的脑电波语言翻译,其难度可能比全世界统一语言和文字的难度还大。那么想要实现后者,你们认为其可能性有多大呢?

  那么,对于脑脑交互呢?我们是否可以先绕开语言翻译的这座大山,先去实现一些非语言化或者先于语言化的脑信号交互呢?比如,找到人类共同的一些辨识方向、情绪以及一些本能应激反应的脑电波信号,通过 AI 学习,实现信号的解码和共享。

  这确实是有可能的,比如上面俄罗斯方块游戏的方向测试,以及在一些大鼠身上做的一些头部预期运动的信号的测试。但是,再复杂一些,就可能会必须要从脑电波信号转码为语言(语音或文字)来进行交互了,不然,这些探测到的脑电波数据就仅仅是一些物理信号,而不能具有任何的信息价值。

  这可能还是应了那个哲学命题,如果意识不通过语言来表达,我们怎么意识到这个意识呢?

  在一个需要靠讲故事来撑市值的新型产业,脑机语言翻译的实现,确实再一次给脑机接口的技术发展和商业化注入了一剂强心针。当然,我们也要冷静地看到这一技术仍然只具有“实验室”的成功价值,其用于商业化方面还需要脑机接入的材料成本、安全性,信号检测的准确度,翻译模型的迁移性和普适性等各个方面走向成熟。

  至于我们试图去回答的“意念交流”的脑脑交互,大家其实也看到了,前途茫茫,困难依旧重重,甚至还有一座语言的大山横亘在人类面前。

  毕竟,上帝也是靠“说”才创造了世界,而不是靠“想”创造的世界。