在大家享受智联网带来便捷的同时,不断猜想未来的人机交互会发展成何种模式。语音无疑是最直接的逻辑交互方式。如何让机器真正做到“知我所想,行其我意”变得尤为重要。作为最有可能打开这个市场第一个入口的智能音箱,多家巨头都做了资金与技术投入。现如今,国内外已经有多款智能音箱产品面世。作为国内为数不多的具备完整业内领先算法并产品落地的智能音频公司,时代拓灵正式推出基于声纹识别的远场语音交互智能音箱方案。
声纹投入应用
新颖且实用性极强的落地产品
时代拓灵语音交互技术提供基于声纹识别的个性化解决方案,让音箱变得真正智能。声纹识别(Voiceprint Recognition)是什么?与指纹、虹膜等生物识别手段类似,声纹识别是从一个人的语音片段中提取出独特且有规律的特征数据,下次再听到这个声音的时候能快速识别出来的技术。
声纹识别用处颇多。首先,它保证智能音箱使用的安全性和私密性。假如我们在初次使用智能音箱时了对家中小孩子的声音进行了录入,那么系统会根据孩子的声纹特征作为依据,对孩子后续的使用做规划和限制;在公共场合,当智能音箱询问是否要读新到的短信时,也可以通过声纹识别避免他人的恶作剧。其次,有个人定制感。在家中多人使用同一个智能音箱的情况下,当人们想放歌、购物时,不同的声纹可以通过该人的历史记录作个性化推荐。
至于声纹识别在智能音箱上应用的品牌,国外已有Amazon的Echo和谷歌的Google Home等使用了该项技术,Echo现在甚至可识别最多十人的声音。而国内最早号称做出了声纹识别功能的则是阿里的天猫精灵。时代拓灵现在也已经将该技术落地于产品上,其成熟的算法使时代拓灵走在行业前列。
前端处理
麦克风阵列技术
时代拓灵在智能音箱方案的前端使用了麦克风阵列,以取得更好的语音采集效果。我们甚至可以这么说,不把智能音箱的前端采集处理做好,下一步的识别以及更后的指令处理、执行等等完全无从谈起。
麦克风阵列由一定数目的麦克风,是用来对声场的空间特性进行采样并处理的系统。而我们在语音交互中,尤其是智能音箱方案涉及到非常多的远场语音交互,麦克风阵列可以更好地解决更远的距离、更复杂的场景中出现的识别问题。时代拓灵的麦克风阵列算法支持常见的双麦,四麦,六麦方案,同时也成功的为合作伙伴提供了定制的高达16和24麦的大阵列方案。
相比单麦克风而言,麦克风阵列在时域和频域的基础上增加了空域的概念,确定声源在空间中的位置,从而达到声源定位的目的。
另一方面,我们知道要使音箱执行正确的指令,首先应该获取纯净而正确的语音信号。在复杂的环境中,从含有噪音的语音信号中将目标语音提取出来,也是智能音箱技术中重要的一环,这个过程我们称之为语音增强。麦克风阵列在此层面,通过波束形成技术,细致地处理了单麦很难应对的非平稳噪声和混响的影响,也在提取声源的同时更好地抑制噪声。时代拓灵的语音增强技术已经在多个场景下使用,比如阿里巴巴钉钉的企业通讯产品。
云场语音交互
边缘计算大显身手
时代拓灵语音交互方案采用边缘计算,将运算集中在低功耗端上设备处理,分担云平台的工作量,结合信号处理和深度学习,聚焦声学的采集端。
边缘计算不但是近期热门话题之一,投入使用之快也令人瞠目结舌。谷歌云平台(GCP)于近期发布了全新的边缘计算服务Cloud IoT Core,VMware也推出的用于建立、管理和扩展IoT基础设施的Pulse IoT Center平台。除去这些科技巨头对于边缘计算的研发,美国最新一代的列车也在使用边缘计算+IoT云平台搭配的解决方案,其设备24小时不间断监测火车的运动数据,减少碰撞风险的同时也提高列车的安全性,将重要数据回传云端。
智能音箱作为智能家居、IoT重要流量入口,必须依靠先进的边缘计算才能达到快速响应,更高效的数据收集和分析,以及最佳用户体验。时代拓灵语音交互核心算法全部于端上根据环境自适应计算,减少了网络交互的时间,在存储和计算复杂度双层优化深度学习神经网络,达到低功耗高性能的唤醒、声纹识别,降噪,立体声回声消除效果。时代拓灵的智能音箱方案目前已适配了多家主流嵌入式平台,包括高通、MTK、全志、瑞芯微、TI等,与合作伙伴如创维,酷曼等打造的落地产品近期会陆续上市
|