1月16日,著名主持人赵忠祥因病在京去世,享年78岁。赵忠祥老师曾主持、参与过多档知名节目录制,尤其是在科普节目《动物世界》中的配音,成为了很多人共同的成长回忆。《动物世界》于1981年首播,30年来,赵忠祥一共为《动物世界》和《人与自然》解说了2500集。生前谈到这段经历时,赵忠祥曾表示:“解说《动物世界》十年,我的风格才被认可”。

无法继续听他本人给这个经典节目配音很遗憾,AI或许在某种程度上满足人们的这一需求,就像央视纪录片《创新中国》重现已故播音员李易雄浑大气的声音。未来,AI取代传统配音员会不可避免吗?

伟大的配音员能够轻松自如地调节自己的声音,表达各种强烈而复杂的情感。因此很多人都很难相信计算机能够做到这一点,直至“深度伪造”现象的出现。深度伪造还预示着,娱乐、媒体等领域将会发生巨大的变化。

AI能取代配音员吗?效果能赶上赵忠祥老师吗?-冯金伟博客园

何为“深度伪造”

“深度伪造”是“深度学习”和“伪造”的结合体。深度学习是指计算机能够依靠人工神经网络进行学习,从而完成复杂的计算,比如重现一个人的声音或者几乎毫无痕迹地将一个人的脸“变成”另一个人的脸。

假音频和假视频并不是一个新现象,事实上它们已经在电影中使用了很多年。比如在1994年的电影《阿甘正传》中,后期制作们煞费苦心地把主角汤姆·汉克斯(Tom Hanks)叠加到历史事件中,比如利用档案镜头使得他与美国总统约翰·肯尼迪(John F. Kennedy)见面。然而,从那时起,计算机变得愈发强大,愈发有用。当初需要一整个团队花费大量时间对电影胶片进行艰苦的整理,而现在只需一个人使用消费级笔记本电脑和免费软件,就可以在更短的时间内完成这项工作。

技术的大众化使得普通人能够创建自己的内容,并访问全球各地的音频和视频文件。然而,与此同时,这种大众化也使得怀有不良意图的个人有可能为了一己私利而创建虚假的音频和视频内容。

那么这对配音的未来意味着什么呢?对于媒体呢?对于整个世界呢?这是一个未知的领域,但我们已经看到了一些后果。

授权问题

2018年,一段前美国总统奥巴马贬损特朗普的视频浮出水面。视频末尾披露,是演员乔丹·皮尔(Jordan Peele)的声音被修改成了奥巴马的声音,同时嘴巴的动作也被电脑移植了。

借助机器学习技术,软件现在只需要3.7秒的音频材料就能复制一个人的声音。有了更多的源内容,声音克隆软件可以听起来更加真实。而那些拥有数小时可供公众使用的语音内容的配音员,可能会面临未经许可就被克隆和使用的风险。

奥巴马和乔·罗根(Joe Rogan,UFC著名评论员)等公众人物拥有数百小时的公开录音,这使得他们成为深度伪造的主要目标。或许对配音员有利的一点是,我们还没有听到一个人工智能的声音在情感表达的深度和语调方面是100%令人信服的,只有配音大师能够做到这一点。

替代配音人才?

在2019年E3展上,视频游戏《看门狗军团》(Watch Dogs Legion)亮相并引起了媒体的关注。游戏中有大量的角色,每个角色都有独特的技能和背景故事。然而,人们的关注不仅仅是因为《看门狗军团》的游戏玩法,还因为它还有一个有趣的制作故事:他们并没有雇佣大量的配音人才来覆盖所有的角色,而是使用了声音调制技术。

工作室让一名配音员为多个角色念原稿,然后调制这名配音员的声音,使其听起来像一个完全不同的人。这一举措会让该游戏工作室能够按时发布产品,降低运营成本,并减少游戏的总文件大小。考虑到这些好处,可以预见的是,其他的视频游戏工作室可能很快也会效仿,从而可能在不久的将来削减配音员岗位。