盘点一下那些虚实结合的文本输入方式
前面两篇文章讨论了 visionOS 键盘和虚拟键盘交互中触觉缺失的问题,最近 Meta 放出了将任意物理平面变成虚拟键盘输入界面的方法,通过将虚拟键盘“投射”到物理桌面上,解决了触觉反馈的问题,当用户在虚拟键盘键入文本时,头显可以辅以相应的视觉或听觉提示,进而增加用户按键信心。不仅如此,系统可以继续利用基于人工智能的输入法自动纠错和自动判断等功能,进一步提升输入效率和精度,可以达到每分钟100单词的成绩,准确率高达 98.9%。
本文就来盘点一下那些虚实结合场景下文本输入的(奇奇怪怪的)方案。
与人们已经习惯的实体键盘、触摸屏相比,VR/AR 中输入文本的困难,总结原因要么是“看得见摸不着”,要么是“摸得着看不见”:虚拟键盘界面,视觉上看得见,但缺少触觉反馈(触觉缺失导致的问题已经在上一篇讲过了);实体键盘在触觉上摸得着,在VR场景中不可见,在AR场景中与便携属性不符。
为了提高文字输入效率,过往研究提出了以下不同类型的方案:
- 优化布局(QWERT → 灵活布局):从传统的 QWERT 键盘布局,到更符合悬空手势、控制器输入的灵活布局,通过交互设计的方式提升文字输入效率;
- 变换控制方式(手柄 → 裸手 → 穿戴):从传统的手柄(只有两个输入触点)到裸手识别,再到指环、腕带等穿戴设备,充分利用不同的控制方式,同时可以结合不同的布局优化;
- 多模态输入(手眼 → 语音 → 大脑):从手眼协同,到语音识别,再到脑机接口,充分利用人的不同感知通道
一、优化布局
1. Google 敲鼓键盘
这是 Google 为其 Daydream 项目(早期将 Android 设备变成 VR 平台的项目)设计的虚拟键盘布局和控制器输入方式,配合 Daydream 的长条形状控制器,呈现一定弧度的键盘布局和圆鼓形状的按键设计,让文本输入像演奏音乐一样充满节奏和乐趣。
Google Daydream drum keyboard
2. HoloLens 混合现实键盘
HoloLens 的混合现实键盘采用的是传统的 QWERT 布局,事实上有点“过于传统”了,第一眼就让人联想到传统的打字机,再配上若有若无淡蓝色的荧光,一股浓浓的复古未来主义(Retro-futurism)风,令人印象深刻!
HoloLens keyboard
Typewriter
3. 跟手布局
Apple Vision Pro 发布的时候就有网友做了梗图——更适合中国人的“算命输入法”。
算命输入法
事实上确实有人在做相关的设计和专利,通过将按键布局与用户手部关节点相对应,借助手势识别实现复杂的文本输入,甚至可以在关节点上绑定“应用快捷键”,不止能用于文本输入:
BlueTap 输入法专利
BlueTap 输入法 – 快捷方式
4. 灵活组合布局
另一种布局方式是打破现有的 QWERT 排列方式,例如结合游戏手柄的摇杆,只通过方向选择的序列组合实现不同字母的选择。这类布局的设计思路与手机“九宫格输入法”一样,在有效按键数量受限的情况下,通过步骤组合来获得更多输出结果,即以时间换空间。
PizzaText
PinchType 手势分组
改变输入按键的布局通常需要与特定输入控制方式相配合,并且需要辅助更好的输入算法,这类方法最大的问题在于打破用户的常规输入习惯,学习成本过高因而实用性不足(但对于熟练掌握功能机时代九宫格输入法的用户来说,上面的“算命输入法”很可能是一个不错的方案)。
二、变换控制方式
1. 手势姿态追踪
这一类输入方式并不需要真的键盘存在,主要是利用人们熟练打字之后形成的肌肉记忆,用户只需要让自己相信双手正在敲击键盘打字,它可以通过识别手指的运动模式,来推断对应的文字输入。
TapID
TapXR
这类方法没有给用户带来额外的学习负担,只是需要熟悉一下如何迁移自己在真实键盘上打字的肌肉记忆。
2. 手写控制
这一类输入方法,通过指环直接监控手指的活动,从而完成更加灵活、精确的手指姿势识别,再辅助输入算法以实现文本或指令的输入。
Apple 智能指环专利
2014年的智能指环众筹项目,已停止
3. 键盘追踪
键盘追踪的方法就比较直接了,要么是把真实的键盘通过定位将1:1模型投射到VR里,要么是通过局部透视(Passthrough)的功能,将键盘区域开放给给虚拟场景。总的来说就是让键盘在 XR 场景中能够同时被看得见和摸得着。
罗技键盘Bridge
三、多模态输入
1. 语音输入
语音转文字输入其实是对手动输入最便捷、准确率最高的补充,现有的技术也足够成熟。只不过在应用场景上,语音输入更适合较简短的指令输入(如 Siri),或者对文本精确度要求没有那么高、可以事后进行重新编辑的场景(如会议记录、语音聊天等)。
如果是类似办公的 XR 场景下,那么大段的语音输入转文字后可能还需要通过其它方法辅助进行精确编辑,另外语音交互也对用户场景有诸多限制:
2. 脑机接口
一般的脑机接口(BCI)技术是指通过读取大脑信号,加以判断并反馈给计算机进行输入或控制。其本质上和前面的手部信号其实差别不大,只不过大脑电信号要比肌肉电复杂得多,同时对大脑决策指令的解读也可以完成比文本输入更加复杂的任务。
21 年发表在《Nature》的一篇研究可以让瘫痪人士通过书写来交流,他们在一个四肢瘫痪患者的手部运动相关皮层区域记录了来自植入电极的神经活动。即使在瘫痪多年后,他的运动皮层仍保留了对不同字母书写动作的强大神经表征。这种方式是直接对大脑信号的解读,尤其是把运动信号的指令解读出来,则可以直接在计算机中对书写或输入的结果进行翻译,有可能这才是终极解决方案!
参考资料:
- https://niteeshyadav.com/blog/are-we-ditching-keypads-for-good-in-ar-vr-84902/
- Dube, T.J., Arif, A.S. (2019).Text Entry in Virtual Reality: A Comprehensive Review of the Literature. In: Kurosu, M. (eds) Human-Computer Interaction. Recognition and Interaction Technologies. HCII 2019. Lecture Notes in Computer Science(), vol 11567. Springer, Cham.https://doi.org/10.1007/978-3-030-22643-5_33
- TapID: Rapid Touch Interaction in Virtual Reality using Wearable Sensing
- Willett, F. R., Avansino, D. T., Hochberg, L. R., Henderson, J. M., & Shenoy, K. V. (2021).High-performance brain-to-text communication via handwriting.Nature,593(7858), 249–254. https://doi.org/10.1038/s41586-021-03506-2