Tech Talk | NOMI GPT 为什么能懂你?
在 NIO IN 2024 蔚来创新科技日上,基于AI核心底层能力打造的全新「Banyan 3 智能系统」成为了大家关注的焦点。「Banyan 3」的情感智能,基于AI大模型能力和原生智能系统,打造出全新的NOMI GPT架构,加速了NOMI的进化成长。
目前,NOMI经历了超过130次的版本迭代,具备了超2,000项功能的新增及更新。而自NOMI GPT上线以来的3个月时间里,用户和NOMI的交互已经超过了1,500万次。
从随叫随到的贴心管家,到趣玩互动的角色扮演;从无限畅聊的倾诉树洞,到百科问答的创作助理;拥有无数身份的NOMI究竟如何识别这些繁多、复杂、多变的指令任务,又是如何在接收指令后精准调度对应技能予以执行的?
本期Tech Talk,我们邀请到了蔚来大模型算法工程师曹迪,为我们揭秘「NOMI GPT 认知中枢」中的「调度分发」能力。
什么是「调度分发」能力?
在讲「调度分发」之前,让我们先了解下「NOMI GPT 认知中枢」,它集成了行业最全的知识库,包含了调度分发、多模拒识、跨域继承/跳转、多Agent仲裁等多个模块,拥有强大的任务处理能力。
而其中的「调度分发」就是根据用户所说的内容、所处的状态,以及交互所产生的前后需求变化,去识别和判断,调用不同的应用和服务,例如调用车控、媒体、导航、电话等车辆功能,调用用车助手解答用车问题,调用大模型百科进行长距离的上下文聊天互动,亦或是依据用户的语义设定恰当的触发条件和时机,通过AI生成完整的快捷场景。
如果说「NOMI GPT 认知中枢」是人的大脑,「调度分发」就是大脑皮层。「NOMI GPT 认知中枢」通过听觉、视觉等接受外界信息后,「调度分发」模块会进行过滤、筛选、处理、识别有效信息,并进行推理和判断。然后,进行指令的调度分发,通过神经系统支配身体作出反应,有神经性的感官反应,有物理性的动作反应,也有高一级的思考反应。简而言之,「调度分发」能够智能识别用户需求,调用相应服务,提供个性化的交互体验。
NOMI如何进行「调度分发」?
小小的NOMI背后,支持着超2,000种技能指令。在接收到用户指令后,准确理解其意图并正确分发指令,对NOMI来说是一项极具挑战性的任务。我们举一个实际的例子,帮助大家更好地理解「调度分发」的流程:
为了帮助NOMI完成这个指令,「调度分发」会进行以下三个步骤:
1. 理解并精准判断用户意图:首先利用「自然语言理解 NLU」(Natural Language Understanding )意图模型,判断用户的意图,这个场景里用户发起了一个生成快捷场景的请求指令。紧接着结合用户个性化信息,调用NOMI GPT大模型进行语义分析,理解并拆分出语句中的触发条件和执行动作。具体到这条指令,「调度分发」判断出用户需要设定一个上班通勤的快捷场景,场景的触发条件包括时间(工作日)、车主状态(上车后),场景要执行的动作包括启动导航、开启热点、打开空调、调节空调、播放广播。
2. 分发指令:得到NOMI GPT大模型语义拆分的结果后,「调度分发」便开始将触发的调度条件和执行动作整合成快捷场景指令,通过技能模块的转换,最终输出可识别、可执行的系统指令呈现给用户,若用户确认此指令正确后,快捷场景将被持久保存。
3. 确认并执行指令:当用户触发执行条件,若根据座椅判断用户已上车,通过时间判断当下是工作日,快捷场景便被激活,「调度分发」便会将这个快捷场景所预设的执行动作进行分发,包括启动导航、开启热点、打开空调、调节空调、播放广播等,对应的服务便开始启动。
以上便是一个简化的「调度分发」的流程,为了提升「调度分发」的精准度和效率,我们还探索出了两个方向的新技术方案:
一方面,蔚来首创模态内外多维度对比学习技术,即在传统文本分类任务中引入对比学习技术,构建自动训练迭代pipeline,极大地强化了NOMI的语义区分能力;
另一方面,针对复杂上下文理解、多意图识别、AI场景生成等挑战,NOMI通过利用大模型的感知与推理能力,显著提升了处理指令的可靠性,无论是在单次交互还是连续多轮对话中,NOMI都能保持高度的准确性和智能性,以更加精准和高效的决策执行。
「调度分发」面临哪些难点和挑战?
所谓「能力越大,责任越大」,随着NOMI支持技能和对话能力的不断提升,调度分发中枢面临前所未有的巨大挑战。其中,为了平衡回答的准确性与对话过程的体验感,精细的场景划分和意图识别变成了首先要解决的两个关键问题。
我们举例一个实际的应用场景:
“Hi NOMI ,我想听周杰伦的歌。”&“Hi NOMI ,周杰伦都有哪些歌?”
在这两条指令中,一个是任务型指令:播放周杰伦的歌曲;另一个则是对话型问答:播报周杰伦的歌单。而如何区分任务型指令与闲聊问答需求,就是解决对话系统的核心问题。
针对该类问题,我们做了以下技术探索:
数据积累与融合:在原有任务型数据的基础上,通过融入海量高质量聊天数据,以此快速识别出用户是想要听周杰伦的歌曲,还是了解周杰伦的歌单,来显著提升大模型对指令型和非指令型对话的辨别能力。
数据清洗工具:构建基于大模型的指令数据清洗工具,为大模型提供可靠且相关的上下文,能够快速识别出指令的核心需求,即是收听歌曲还是查阅歌单,从而降低了需求错觉的可能性,打造出高效的数据闭环体系,提升了训练数据的质量。
语义理解模型:对语义理解模型进行优化,融入对比学习等前沿技术,将模型理解准确率提升12%以上。
我们再举例一个实际的应用场景:
“Hi NOMI ,上海周末有哪些适合放松心情的公园?”
“Hi NOMI ,共青森林公园的特色游玩项目是什么?”
“Hi NOMI ,播放一首周杰伦的歌。”
多轮对话中,面对一连串的互动指令,且这些对话内容比较自由开放,聊天内容非固定且无明确的领域和范围,如何准确、快速地理解用户每一条指令的真实意图,对NOMI来说也是非常具有挑战性的。
针对这类问题,我们的技术解决方案是:
知识库的选择:针对品牌知识、用车知识、生活百科、时效性内容等不同知识库,通过大模型推理能力,合理选择并进行检索,以此识别出用户的需求是搜索可以游玩的公园位置还是检索该公园里可以游玩的项目。
多轮对话的处理:为用户指令意图设定执行的优先级次序,对于用户指令意图模糊的状况,引入大模型Agent做意图仲裁,以助力更精准地理解用户的真实意图;即是想要寻求放松身心的方法,还是推荐可以放松身心的地方。
多轮对话历史的利用:将用户与NOMI的对话历史以及单轮对话的模型结果当作大模型的输入,经由注入知识进行判断,是继续开展多轮对话「聊下去」、还是开始另一轮指令的执行;例如从上海公园的讨论跳跃至播放歌曲,在多轮对话中快速开启下一个指令的执行。
除此之外,在NOMI的对话系统中,我们还采用了多个专家模型,并通过调度分发中枢进行调用。至于为何是多模型设计,首先,不同模型在不同任务上有各自的专长,能够更精准和高效地解决特定领域问题;其次,正所谓「专业的人干专业的事」,通过模块化设计,每个模型可以专注于自身的优势领域,从而提升整个系统的效率和效果。
最后,纵然身怀2,000多项技能,但用户的需求总是多样且个性的,时至今日,NOMI仍然会出现「不知道」、「还在学习」等卡壳的回应。但随着蔚来率先引入「NOMI Agents 多智能体架构」,重构NOMI的认知和复杂任务处理能力,加速座舱体验从「单点功能」向「主动智能」的进化,相信NOMI也会变得越来越聪明,越来越有「人情味」。
我们希望基于NOMI GPT底层框架和海量场景训练数据,能够「教会」NOMI应对更全面、更开放、更复杂的场景和挑战,使其具备更广泛的知识资源储备、更强的学习推理能力,在无限主题下与用户进行更加深入的对话。蔚来全球首创「NOMI 情感引擎」,也会让NOMI成为更有温度、更专属于你的情感伙伴,为用户带来全场景、全生命周期的情感体验。