上期「技术是信仰」通过“应不应该允许语音控制近光灯开关”这个智能汽车领域的世界性议题,解读了理想同学背后的技术基础和“以人为本”的产品逻辑。评论里许多理想ONE的车主们表示——理想同学用过就回不去了。
点击跳转上一期内容
那么,在有效解决了用户的诸多需求后,如果我们再往上探究一个问题:
语音的终极形态应该是什么?
关于这个问题,几乎整个智能语音业界的共识是:
“类人”
从字面意义上理解,“类人”就是智能助手像人一样,Ta与人的沟通方式应该类似人和人之间的正常交流。
那么如今的语音助手和人们期望中的“类人交互”还有哪些差距呢?应该从哪些路径进行技术突破?归类起来主要有三个方向:交互、技能和推理。
01
好的助手不是“话痨”
先从“交互”聊起,下面的这几个问题,你是否在使用现阶段车载语音时遇到过?
1、每次都需要唤醒,不能像人和人聊天一样直接下达命令或者用眼神沟通。
2、必须听完语音系统冗长的播报才能进行下一步操作,令人着急。
3、明明自己是在跟旁边的朋友说话,语音助手却被“无故”唤醒。
所以这里的“交互”指的是一个关键问题:语音助手该何时说话,何时倾听?
在交互技术上,理想同学其实正在大跨步地成长,早在OTA 2.2中,理想同学就实现了自由对话,在OTA 3.0中又进一步优化了功能。
自由对话目前主要包含两个层面,指令自由和对话自由,前者顾名思义,是通过全车车控控制和可见即可说实现的,你可以通过理想同学自由控制车内的设备和各种软件功能。
后者(对话自由)则聚焦于理想同学和人的沟通方式,依靠连续对话、想说就说、无效文本拒识和四音区对话等多种技术的结合实现。
“连续对话”让你一次唤醒理想同学,接下来20秒内都可以直接对Ta下达指令。
“想说就说”使乘客可以随时打断理想同学,不必等Ta把话说完,终结语音助手的“话痨症”。
“无效文本拒识别”能让理想同学分辨哪些指令是对Ta说的,哪些是乘客的⾃⾔⾃语、打电话或是乘客间的交谈。
“四音区”自不必多说,让车内的每一名乘客都能享受理想同学的贴心服务。
在四音区的基础上,理想同学还实现了“跨音区识别”,举个例子,当主驾驶调整分区空调的温度,副驾驶或后排的乘客只需说“我也要”,便能在自己的分区得到相同的空调温度调整。
以上这些都是理想同学在与乘客“交互”方式上的探索,这些功能虽然距离类人交互尚有距离,但它们是通往未来的“起点”,通过不断地学习和迭代,理想同学会变得越来越聪明。
相信未来有一天,理想同学会成为那个该说话时直言不讳,不该说话时缄默寡言的高情商小助理。
02
成为真正的“管家”
通向“终极形态”的第二个方向是“技能”,这是指能支持的功能覆盖度以及功能的细化控制。
如上期「技术是信仰」文章提到的,根据不同的场景,车内乘员用理想同学控制大灯开闭的权限设计相当细致,许多用户也在评论区为理想同学的聪明才智点赞。
相对来说,“技能”是理想同学的强项,语音助手“技能”的多少主要取决于车企对车辆车控以及生态服务的整合能力。
理想同学如今已经做到了指令自由,能实现全车车控控制,除了车窗、后尾门、座椅加热/通风、小憩模式、地图导航、音乐等等“常规功能”外,得益于第三方应用都是为理想ONE定制适配,它们也同样受理想同学指令的调配。
不只是自带的高德地图和QQ音乐,车机应用中心里的网易云音乐、喜马拉雅、樊登读书同样支持“上一首、暂停、继续”等操作,并且还支持可见即可说,看到推荐区有什么内容,直接对理想同学说出内容的名字即可收听。
第三方应用也支持可见即可说
技能层面,理想同学未来当然还有许多进步的空间,在走向终极形态的过程中,如何去处理一句话中的多个指令并持续地细化功能控制都是理想同学的“必修课”。
03
何时才能不再冷冰冰
语音助手向类人交互发展的最后一条路径是“推理”,这也是最困难的一个方向,“推理”是指对信息的理解以及情感化沟通。
我们面对不同人时说话的方式不同;在办公室开会和在聚会上说话的方式也不相同;当我们感觉到好朋友今天心情十分糟糕,也许会不由自主地语气温柔;所以说人类的交流方式异常多变。
此外,当我说“帮他调低空调温度”或“帮我妈妈打开座椅加热”的时候,如何理解“他”指代的是谁呢?如何知道妈妈坐在哪个位置呢?人和人之间可以靠经验或一个眼神去判断,但对于语音助手来说,这显然超过单纯“语音”的范畴了。
所以说“推理”是语音技术最难发生突破性进展的方向,一方面这不单单是语音系统的事情,还会涉及视觉等更多感官甚至逻辑分析;另一方面,现阶段的语音系统还没法建立自己的“价值观”,也不会“察言观色”或是基于对人过去行为的记忆做出不同反馈和推理,这些都是当下技术存在局限的地方。
车企和各种人工智能研发机构其实都在不断地进行着不同技术路线的尝试,当有一天语音助手在“推理能力”上出现质的改变,那么也就意味着智能语音将迎来革命性的进化。
你是否发现在OTA 2.2后,理想同学说话变得更有“人情味”了,这个新声音就是基于深度神经网络语音合成技术,微软MOS语音质量评测得分高达4.49分(目前最高分数),虽然只是语音助手与人沟通的一个小环节,但这也是理想同学在情感化沟通上的一步尝试,未来也还会有更多值得期待的变化。
如今的理想同学已经完成了“小升初”,意味着它已经是一名合格的助手,在“中学”里,理想同学还会不断地学习怎样服务好每个车主和家人们,做好一个“管家”工作。
未来的岁月里,理想同学还会升入大学,甚至步入社会,多学一些“人情世故”,锻炼出“察言观色”的能力,同时,也能更细致地帮你打理好车内的一切,让你和Ta的交流更加自然亲近。
这条持续成长的道路,希望有你的陪伴。
“理想同学,去文良街11号,帮我放点90年代的歌,对了中间咱们得去加个油,再去趟商场给儿子买玩具,还有把咱妈那边的车窗降一半,后排空调关上。”
“好嘞。”























