NIO Logo Created with sketchtool.

汽车人离我们还有多远 | 混乱博物馆

汽车人离我们还有多远 | 混乱博物馆

(混乱博物馆) 2020年05月06日

近年来,受虚拟偶像、赛博朋克及复古合成波风潮的影响,不少普通人都接触到了声音合成的相关讯息。其中,语音合成在 AI 和神经网络算法的加持下,已经展现出了惊人的潜力。或许在不久的将来,我们可以实现儿时拥有自己的擎天柱大黄蜂的梦想。

人类有强烈的交流本能,因此喜欢与身边的各种事物说话,甚至不在乎对方有没有回应的能力。所以,大家也愿意开发能与人类交流的智能工具。这样的产品很多,只不过目前它们听起来大都还不那么「智能」。机器在模拟人说话的时候,到底出了什么问题?

就好比人类婴儿学习说话的过程,我们粗略的将机器模拟人类「交流」分为三个层次:第一个层次是能说出词意明确的语句;然后是能正确的表达带有情绪和隐含意思的语句;最后是能够结合语境,与人对话,并正确表达自己的意思。

最初,一些人以仿生学为基础,尝试用机械装置来模拟人的发声器官和声道。比如由德国工程师里斯(Riesz)在1937年所设计的人造口鼻腔发声装置。由于机械在当时难以完整复原整个腔体内各部分的全部运动,尤其是嘴唇的运动,因此后来也有人尝试先利用该装置模拟声带振动音,再用人工调整共振峰的频率和带宽,来得到想要的元音,这被称为模拟合成法

由于合成出来的声音受限于设备材质,就显得与真人发声的区别过大。与信息传输由模拟信号到数字信号的发展类似,随后登场的就是基于数字化和计算机科学发展而来的语音合成技术TTS(Test to speech)

比如通过大量的真人录音,收录各种音素素材,然后根据需求来选择这些音素,将它们合成为满足条件的结果。这种方法在理论上天然解决了模拟人类自然发音的问题。最常见的例子是,人们使用语音地图导航来辅助驾驶。同时,人们建立了基本的方法论——语音模型(声学系统部分)和语言模型(语言分析部分)。通过组合语音模型和语言模型的概率来判断一句话的意图并让人工智能从库里选择合适的回答。

语音模型部分,目前主流的技术方式大致有两种。前面提到的收录大量真人录声的方法叫做波形拼接法。但是人们随后发现其中拼接的部分表现不够自然,而且对音素的覆盖要求非常高,并不是特别灵活。比如暂时无法获取新的音素,录音的预算已经花完等都会影响效果。

所以一些人想到了通过对已有的录音的频谱特性参数进行建模,并以此「模拟」库中未收录文本的音频特征,再通过转码器将这些数字信号转化为音频,这就是参数语音合成技术。此时,遇到的问题就变成了建模的精细程度——粗糙的模型会使得输出的音频带有严重的失真感和机械感;精细的模型则需要大量人力投入进行海量的测试。

语言模型部分,则是一个基于语言学去分析语句含义的过程。其做法是,通过统计建模来预测一连串语素对应一句有意义的自然语言的概率。比如,先判断语种,然后再根据对应的语法规则将一连串语句进行分词,再将其转入到不同的模块进行标准化、标注、多音字消歧等。本质上就是拆解一个人的思维理解的过程。

大脑擅长归纳,即把真实事物,以某些特点作为标准,抽象为一个个颗粒,再通过大量观察得来的「经验」来判断颗粒之间存在的联系。在统计学上,也据此提出了「基于观测,当前行为只受上一个或者几个行为的影响」的著名假设马尔可夫链。更进一步的,当系统中存在着一些不可被直接观测,但是与事物之间存在统计学意义相关性的因素时,我们就会用隐马尔可夫链对其进行描述。

比如,你有个朋友在外国读书,每天都会根据当地天气决定今天的活动。假设一共有三种状态:购物、宅家或者遛狗。而我可以通过脸书来观察到今天他是在哪种状态,预测当地天气就成为可能。那么,显然在这个例子中的隐马尔可夫链就是「天气」。

实际生活中,当与问题匹配的「颗粒」更多,人工语音智能就能预测及回答人类的意图更快更准。

对于语音合成最前沿的领域来说,人类现在可以用神经网络的方法替代传统的人工手段对语音和语言模型进行调试。某种程度上,这复现了人的思维对底层结构封装的过程。

随着数据库的不断积累,计算机算力的不断增加,这种代际积累所形成的效应将会越来越明显。直到某一天,人类将发现人工智能真正意义上可以通过图灵测试,满足人的功能、甚至是情感上的需求。

人工智能语音目前处于第二个层次日渐完善与第三个层次的初探阶段,比如我们在音箱上看到的GoogleHome、Alexa等。现在,这些功能在汽车上也能实现。

蔚来汽车出品的车载人工智能NOMI,在语音模型上,拥有由好莱坞合作配音团队录制的16000句以上常用中英语句,以及流畅的语音合成能力;在语言模型上,NOMI通过从超过6000万条的对话语料库中持续学习,不断加强自然语言理解能力。由此可实现近700项语音控制指令,覆盖大部分车内场景,包括部分自动辅助驾驶功能。

区别于一般的人工语音智能助手,NOMI还拥有表情和动作。90套生动表情都基于人类情绪设计;即将在全新蔚来ES8上首次搭载的全圆AMOLED屏幕,更让其脸部圆润真实。在量身定制的电机和运动算法支持下,它的运动轨迹平顺细腻,如同真实生物般活灵活现。当不同座位上的乘客叫它时,通过车内阵列式麦克风系统进行声源定位后,NOMI带着表情的小脑袋就会快速转向相应方向,回应对方的需求。

考虑到人工智能的发展,设计之初,蔚来就将NOMI纳入了FOTA远程车辆软件升级体系。随着用户数据的丰富、深度学习模型的迭代,NOMI将逐步向「能预测、有情感」的最终目标不断前进,用户会获得一个真正「懂你」的人工智能伙伴。