4500字干货!5个章节帮你掌握智能汽车上的多模态设计 收藏
随着多模态大模型 GPT-4 的发布,“多模态”这个词语走进了大家视野中。然而多模态并不是新兴概念,近年来它已作为一种人机交互的方式运用在了智能汽车中。车机交互是怎样发展至今的?多模态到底是什么?又如何合理的进行多模态设计?
本文将通过介绍汽车与车载系统发展和多模态背景,浅述多模态交互在智能车机发展的原因,并将总结车内的多模态设计应用现状,最后尝试为多模态设计提供可供参考的建议。
7000字干货!电动汽车仪表盘设计指南 当一辆电动汽车驶来时,人们最先注意到的可能是它那极具未来感的外观设计。
阅读文章 >
一、汽车与车载系统的发展 1886 年,卡尔·本茨发明了世界上第一辆获得“汽车制造专利”的三轮汽车。同年 7 月,戴姆勒发明了第一辆四轮汽车。至今一百多年,随着技术、社会和人文环境的发展,汽车已从传统的单一代步工具发展为当下具有多种功能的智慧座舱——可以帮助我们在路上掌握实时交通和新闻,提供音乐和电影流,甚至具有自动驾驶和自动泊车功能。而未来也将进一步朝着人机交互、情感交互的移动载体方向发展。
车载界面与系统也在随之变化,1923 年的福特 T 型车——最早的批量生产的汽车之一,有一个用于监控充电系统的单仪表。1986 年,别克为第七代 Riviera 配备了触摸感应屏幕,这也是第一辆配备触摸屏显示器的量产车。该屏幕可以控制音量、无线电台或调整温度和风扇速度,但这种概念仅在几年后就又被机械按键所取代。
1986 年的别克 Riviera
直到 2010 年初,触摸屏显示器成为一种常见的车内配件。2014 年,苹果推出了集成 iPhone 和汽车仪表屏幕的智能车载系统 CarPlay,Google 也相继推出对标产品 Android Auto,以上两种系统核心都是将手机系统平移到车载屏幕上,让驾驶员可以使用车载屏幕来与手机上的应用互动,以此拓宽系统使用场景、丰富汽车驾驶体验。如今,汽车厂商纷纷在车内嵌入越来越大的电子屏幕,越来越多地取代传统的机械按钮布局,以此来凸显车辆的科技与高端。
2023 年的奔驰 EQS
随着车内集成的功能模块越来越多,智能化提升也给驾驶员带来了更多的操作负担。逐渐增加的信息内容会带来认知过载、分心等问题,驾驶员也从仅需操纵机械按键转变到现在的屏幕触控、语音交流、手势交互……人车之间的交互途径增加并且更加多样化,智能汽车交互不再仅是手机系统在另一个界面的延展,如何在车内实现高效、安全、易用的人机交互是 设计师 们需要针对性思考的。
二、多模态是什么 “模态”(modality)一词是由德国物理与生理学家赫尔姆霍兹提出的生物学概念,即生物凭借感知器官与经验来接收信息的通道,例如人类通过五感来获取外界信息。模态的概念一开始在人文学科领域运用,后来被引申到计算机科学领域,指计算机与物理世界联系的通道。
多模态就是多种通道的结合。即人通过多种感官、综合使用手势、眼动、图文、音视频等不同信息载体与机器进行交流的形式。
例如十几年前的音乐播放器,人们只能通过单一的物理按键来操纵。而现在市面上流行的智能音箱,人们可以通过触摸屏、语音、甚至是手势来与其互动。
左:sony 磁带机 右:小度 x8 智能音箱
近期 OpenAI 发布的多模态大模型 GPT-4 之所以被称为多模态模型,也是因为比起 Chat GPT 只支持单一文字模态输入输出外,GPT-4 可以接受图像和文本这两种模态输入。
人类生来具有多种感官,因此与事物的互动本质上是多模态的,多模态的交互使人可以用最自然的各种行为和通道与机器互动,也是人机交互追求的自然交互的一种。
三、多模态交互设计可以解决驾驶中哪些问题 多模态交互为何会在车载场景愈演愈烈?除了硬件发展以及非驾驶类任务的引入势必会带来模态拓宽外,多模态交互在驾驶场景有着独特的优点。随着技术进步,人们可以在车内做越来越多的事情,比如听歌、看视频、回复信息等。而这些多样的车内任务一定程度上会影响驾驶员的驾驶状态。研究表明,多模态可以降低驾驶员在执行多种任务时的认知负荷,以及减弱驾驶者在多种信息处理中的分心,从而提升驾驶的安全性。
1. 降低认知负荷:高效处理并行任务
多重资源理论(Multiple Resource Theory,MRT)表明,每个通道能处理的信息是有上限的,当信息过载时,会导致人的认知负荷,从而降低效率。比如当你聚精会神看视频时,视觉通道就被极大的占用,更难用余光注意到界面外发生的一切。
主要驾驶任务(比如观察路面、后视镜、车内信息等)大部分需要视觉支持,随后是因控制方向盘和操作辅助功能而产生的肢体操作。
假设,你在开车时想要完成导航这一任务,如果通过在屏幕「手动输入」导航目的地来完成,视觉和肢体通道除了要支持驾驶任务外,还要额外承受导航带来的负荷。如果使用「语音」进行 导航 ,就可以保持视觉与肢体资源不被额外占用,语音通道的引入有效降低了负荷,使驾驶员可以在驾驶时更快更安全的并行处理多个任务。
2. 高效引起注意力:及时提醒司机从分心状态恢复接管辅助驾驶
研究证实,人对于多模态信息的处理速度更快,例如视觉+听觉或视觉+听觉+触觉警告比单一模态的警告更能迅速获得注意,因此更适合对用户反应速度要求较高的驾驶场景。
在手机端的很多界面中,设计师会使用红点、弹窗等方式作为提醒引起用户注意,但是在驾驶场景中,用户的注意力主要集中在路面,依然使用单一的视觉方式提醒,可能会影响反应效率。现在多个车厂辅助巡航的接管提醒已运用多模态信息,如蔚来的辅助巡航需要司机接管时,仪表盘会有视觉弹窗提示,同时配合听觉通道的语音提醒,方向盘和驾驶座椅会有触觉通道的震动提醒。这样的多模态提醒可以使司机快速理解当前状态,并迅速接管驾驶。
四、车内的多模态应用现状 如今,多模态交互越来越多的被运用在量产车上。佐思汽研出具的《2022 年中国汽车多模态交互发展研究报告》将现有车内多模态交互趋势分为五点:
1. 随着大屏、多屏、智能面材的趋势,触控交互应用范围逐渐扩大
中控台大屏让触控成为主流交互方式。例如奔驰 EQS 和小鹏 P7 几乎取消了中控台上的实体按键,使用触控操作替代。
座舱多屏化,使触控的控制范围从前排扩展到车门、车窗、座椅等部件。例如理想 L9 使用 touchbar 取代仪表盘,此通过副驾屏、后排影音屏等实现五屏交互。
理想 L9 的大屏多屏车机
2. 语音交互由被动向主动进化,个性化、情感化需求将得到满足
可见即可说、连续对话、音源定位、免唤醒等语音技术已在 2022 年上市新车上广泛搭载,语音交互方式更加趋向自然。
目前语音功能重点是打造个性化体验,例如蔚来、小鹏、理想等智能化 EV 品牌主要从声音、形象、技能自定义等方面入手进行打造。
小鹏车内语音可同时服务多人
蔚来的智能语音助手 nomi
3. 人脸识别算法的成熟使个性化进一步落地
用户可通过面部识别登陆 ID,实现车辆间的个人信息流转。目前蔚来 ET7/ET5、小鹏 P7/G9、岚图梦想家等车型已搭载相关功能。
小鹏的人脸识别设置界面
4. 手势识别功能作为交互方式的补充
目前手势识别主要应用在多媒体切换、音量控制、电话接听、灯光控制等方面,主要作为交互方式的补充。
福特 EVOS 手势交互
5. 指纹、虹膜、静脉、心率等车内生物识别应用尚处于探索阶段
虹膜/眼球追踪可增强驾驶员检测的精度,通过车内摄像头可实时检测驾驶员在行车过程中的疲劳行为特征(打呵欠、长时间闭眼等),在发生疲劳行为时及时做出预警。
凯迪拉克 Super Cruise 眼球追踪
五、如何进行多模态设计 多模态交互虽然可以使人机交互更自然,在驾驶场景更具优势,但在引入设计时也有需要注意的地方。
前文提到,一个通道接受的信息是有上限的,过多就容易造成认知负荷。然而,每为用户增加一种感官通道实际上也是在引入复杂。不同的任务所消耗的通道资源有所不同,因此适当管理可用的通道资源是非常重要的。针对这些任务,设计师选用哪种模态会更适合?不同模态的增加究竟会降低负荷还是带来负荷?可以通过 VACP 模型,结合“场景-模态-任务”三个维度,把不同感官的资源占用进行量化,从而来探索具体场景与任务下的多模态设计。
VACP 模型( Visual , Auditory , Cognitive , Psychomotor ) 每一个字母都代表不同的感官通道,V 是视觉、A 是听觉、C 是认知、P 是运动。每一个任务所占用的资源都可以被拆解为这 4 类,视觉和听觉是指任务中关注的外部信息,认知是指任务所需的信息处理能力,运动是指完成任务时的身体行为。从 0-7 进行打分,分数越高即该通道资源被占用的程度越高。
VACP 标准打分量表
以下结合 VACP 模型和“场景-任务-模态”举例多模态设计设计流程:
1. 拆解场景
以驾驶场景为例,用户作为驾驶员,在驾驶过程中可拆解为行车、辅助巡航、人工接管、驻车等场景。这里我们选取行车场景。
2. 定义任务
在行车场景下,驾驶员的主要驾驶任务有观察路面情况和车内信息、操纵方向盘和手刹、踩踏油门或刹车等。驾驶员需要通过视觉 V 观察当前路况,通过听觉 A 判断车周是否有鸣笛,通过认知 C 分析前方路况和交通信号,最后通过动作 P 进行相应操作。
3. 分析模态资源占用
将以上任务分别使用 VACP 量表打分,可以汇总得出行车场景下用户的模态资源占用特征。假设 VACP 量表打分分别为:视觉 V5.4;听觉 A2;认知 C4.6;运动 P5.8,即在行车场景中,听觉被占用的程度最低。
4. 对应设计
得到场景下的模态资源占用特征后,可以使用得分较低的模态来作为主要交互模态,以此分担高得分模态的认知负荷。因此我们可以多结合听觉来支持其他任务或接受提醒,例如可以在开车时使用语音对话来完成一些车内设置、音乐播放或进行导航。
综上,多模态设计就是设计师基于场景和任务,善加利用资源较高的通道,对通道资源再分配以达到用户认知平衡的过程。
结语 随着汽车的不断智能化,设计师的挑战是需要将逐渐复杂的车机系统用简单便捷的自然 交互设计 传递给用户,而多模态交互则是这一挑战的解题方法。多模态交互是人机自然交互的发展趋势,如何平衡多模态间的关系、合理的结合多模态进行设计是值得我们反复思考的。
参考文献:
《Engineering psychology and human performance》by Wickens, C. D. 《Attention: From Theory to Practice》by Arthur F. Kramer, Douglas A. Wiegmann, Alex Kirlik 《Visualizing natural language interaction for conversational in-vehicle information systems to minimize driver distraction》by Michael Braun 《2022年中国汽车多模态交互发展市场报告》by 佐思汽研 《Human performance modeling for discrete-event simulation: workload》by Keller, J 欢迎关注作者微信公众号:「We-Design」