一 前记
通常来说远场语音的作用距离是在1-10米之间,远场语音识别技术主要通过麦克风阵列向声源方位拾音。但是,在大多数的应用场景中,由于声源附近存在电视噪、音乐噪声、电话噪声以及墙壁等障碍物的存在,产生了多径反射、混响效应以及背景噪声等加大了远场语音信号的处理难度。尤其是说话人距离麦克风3米以上,这些干扰会明显影响远场麦克风的拾音效果。而且在远距离条件下,语音信号随距离增加幅值衰减严重。因此,如何对远场语音信号进行降噪,引起了许多开发研究人员的关注。
远场语音最早落地的应用是智能音箱,国内以阿里、百度等为代表推出了大众化产品,国外以亚马逊和谷歌为代表先于国内推出产品,值得一提的是亚马逊目前在智能音箱这块的研究做的最为完善,同时新一代的智能音箱集成有智能家居的控制HUB功能,大大拓宽了音箱的应用场景,阿里和百度目前借助国内的垄断地位也开始在智能家居领域开始布局,宣称在智能音箱中嵌入蓝牙MESH技术,前期通过补贴方式进行市场开拓和圈地。其他应用领域目前都在早期尝试阶段,比如教育机器人、汽车语音助手、白色智能家电、智能厨电等。
随着远场语音应用的领域越来越广泛,如何在远距离条件下获取较高质量的语音信号成为了越来越热门的研究。作为一家AIOT方案公司,我们也一直致力于远场语音信号的处理。我们的研究团队不仅熟知语音增强算法、语音处理芯片等软硬件条件;而且还在音频处理领域有着深厚的理论基础。在此基础上我们不仅可以灵活地设计出效果不错的语音增强技术方案,而且还能够根据客户的需求提供定制化的服务。
二 系统原理
其实,远场拾音的应用场景十分广泛,它广泛应用在会议,教育,娱乐等系统上 。凡是和语音相关的产品,很多都涉及到人声信号的提取和处理。所谓远场语音降噪,就是能够在人远距离说话的情况下,周围噪声比较大的情况下,仍旧能够把人的声音信号提取出来。什么事情说起来都比较简单,可是一旦做起来,真是不容易的,这中间涉及到的技术还真不少,下面一个图可以简洁的展出出来这个系统原理。
三 实现方案
该方案的实现,涉及到的技术还真不少,首先是你要选择好一个高灵敏度低噪声的麦克风,不要小看了这个物料,假如没有测试过那么多麦克风,你还真不会选出特别优秀的供应商。这个行业比较乱,很多参数都是和实际测试效果对不上的。唯有经过测试对比,你才能找出最合适的那个麦克风。
其次是高采样率的AD芯片,没高性价比的高速AD采集芯片,采集到的 音频不好,无论你多么牛逼的算法,也都是枉然啊。
再者就是算法了。该方案的灵魂。这里主要涉及到降噪和AGC。这些算法都需要经过长时间的参数调试的,所以说,音频算法,没有经过长时间的积累,是搞不定的。
最后就涉及到处理后的音频怎么输出的问题了。音频一般不是一个系统的主系统,所以说,选择什么接口输出,都支持什么接口,这个也是非常讲究的。是一个考验技术团队的指标。
四 效果展示
下面同样参数的麦克风,在不同场景下录制的数据。图3 的场景是在家里,在距离麦克风60cm的距离一直播放高斯白噪声的情况下录制的;
图4是在吵闹的咖啡店录制的。两组采音是我分别站在1m、3m、5m、10m左右的位置录制的。两个图中上面信道是原始声音,下面是各种处理之后的声音
图 3 家庭环境下加白噪声
图 4 噪杂的咖啡馆
五 后记
录音识别效果可通过百度盘链接试听:
链接:https://pan.baidu.com/s/1pCZNVdhCArVda_TuVtwtMA
提取码:5twl