• 探讨UI组件的基础知识及其在实践中的应用

    研究 2023-08-03
    标题:UI组件:实用知识与思考摘要:本文旨在探讨UI组件的基础知识及其在实践中的应用。UI组件是UI设计师必备的工具,正确使用和灵活运用各种UI组件类型可以提升UI交互设计的水平。本文将介绍常见的UI组件类型,并探讨在实践中如何进行思考和创新,以达到更好的设计效果。1. 引言1.1 背景和意义UI组件在UI设计中的作用...

    标题:UI组件:实用知识与思考

    image.png

    摘要:

    本文旨在探讨UI组件的基础知识及其在实践中的应用。UI组件是UI设计师必备的工具,正确使用和灵活运用各种UI组件类型可以提升UI交互设计的水平。本文将介绍常见的UI组件类型,并探讨在实践中如何进行思考和创新,以达到更好的设计效果。


    1. 引言

    1.1 背景和意义

    UI组件在UI设计中的作用和重要性


    1.2 文章结构


    2. 常见的UI组件类型

    2.1 按钮

    不同类型按钮的设计风格和用途

    按钮的交互设计原则和思考点


    2.2 表单元素

    文本框、下拉菜单、复选框等表单元素的设计与应用

    如何优化表单元素的交互体验和可用性


    2.3 菜单和导航

    水平菜单、垂直导航等不同形式的菜单和导航设计技巧

    如何提升菜单和导航的可视化效果和用户便捷性


    2.4 图片和图标

    图片和图标在UI设计中的作用和运用方式

    如何选择合适的图片和图标,以及它们的可扩展性考虑


    3. 实践中的思考和创新

    3.1 用户需求与场景

    根据用户需求和使用场景选择适当的UI组件类型

    如何进行用户研究和调研,以确定最佳的UI组件设计方案


    3.2 创造性的界面设计

    如何创造独特而具有个性的UI界面设计

    探讨颜色、排版和动画等元素在UI组件设计中的应用


    3.3 响应式设计和移动优先

    如何将UI组件应用于响应式设计和移动设备界面

    移动设备上的UI组件设计考虑点和技巧分享


    4. 案例分析

    4.1 案例一:电商平台购物车设计

    通过案例分析展示在购物车界面中运用UI组件的实践经验和效果评价


    4.2 案例二:社交媒体应用导航设计

    通过案例分析展示社交媒体应用导航设计中的UI组件思考和创新点


    5. 结论

    5.1 总结研究结果

    总结UI组件的基本知识和在实践中的应用要点


    5.2 提出思考与展望

    如何不断学习和创新,进一步提升UI组件设计水平


    参考文献


  • Vision Pro:颠覆性的UI设计创作技术

    研究 2023-08-03
    标题:Vision Pro:颠覆性的UI设计创作技术摘要:本文将探讨Vision Pro对UX设计和UI设计行业的颠覆性影响。Vision Pro是一项新兴的UI设计创作技术,通过结合人工智能、虚拟现实和增强现实等新技术,为设计师提供了全新的创作方式和交互体验。本文将从多个角度分析Vision Pro的优势和应用场景,...

    标题:Vision Pro:颠覆性的UI设计创作技术

    image.png

    摘要:

    本文将探讨Vision Pro对UX设计和UI设计行业的颠覆性影响。Vision Pro是一项新兴的UI设计创作技术,通过结合人工智能、虚拟现实和增强现实等新技术,为设计师提供了全新的创作方式和交互体验。本文将从多个角度分析Vision Pro的优势和应用场景,并就其对UI设计未来发展方向的影响进行展望。


    1. 引言

    1.1 背景和意义

    UX设计和UI设计行业的发展趋势

    Vision Pro作为一项颠覆性的UI设计创作技术的介绍


    1.2 文章结构


    2. Vision Pro的优势与应用场景

    2.1 人工智能在UI设计中的应用

    Vision Pro如何结合人工智能技术提供更智能化的创作工具

    人工智能对UX设计和UI设计的改变和优势


    2.2 虚拟现实与增强现实

    Vision Pro如何融合虚拟现实和增强现实技术提供沉浸式创作体验

    虚拟现实与增强现实在UI设计中的应用场景和优势


    3. Vision Pro对UI设计的影响

    3.1 提高创作效率和交互体验

    Vision Pro如何改善传统UI设计创作过程的效率

    用户如何通过Vision Pro与UI设计进行更直观、沉浸式的交互


    3.2 打破创作限制和激发创意

    Vision Pro如何提供更自由、灵活的创作方式

    如何利用Vision Pro激发设计师的创造力和创新思维


    3.3 变革UI设计的未来发展方向

    Vision Pro对UI设计趋势的影响和变革

    从传统平面设计到跨媒体、跨设备的全新设计范式


    4. Vision Pro在实践中的案例分析

    4.1 案例一:智能手机应用界面设计

    案例描述与分析

    展示利用Vision Pro创作的智能手机应用界面的优势和效果评价


    4.2 案例二:虚拟现实游戏界面设计

    案例描述与分析

    展示在虚拟现实游戏界面设计中应用Vision Pro的创意和创作效果


    5. 结论

    5.1 总结研究结果

    总结Vision Pro对UX设计和UI设计行业的颠覆性影响和优势


    5.2 对未来的展望

    Vision Pro的潜力发展方向

    如何进一步推动UI设计创作技术的创新和发展


    参考文献


  • UI设计中增强层次感的方法:光影的应用

    研究 2023-08-03
    标题:UI设计中增强层次感的方法:光影的应用摘要:本文旨在研究如何通过光影的应用来增强UI界面的层次感。通过对相关文献和案例的研究,本文总结了一些简单而实用的方法,可以帮助设计师在没有其他UI素材添加的情况下快速营造UI空间感。这些方法包括使用阴影和高光突出重要元素、创建虚拟阴影模拟物体间的空间关系、运用透明度和渐变产...

    标题:UI设计中增强层次感的方法:光影的应用

    image.png

    摘要:

    本文旨在研究如何通过光影的应用来增强UI界面的层次感。通过对相关文献和案例的研究,本文总结了一些简单而实用的方法,可以帮助设计师在没有其他UI素材添加的情况下快速营造UI空间感。这些方法包括使用阴影和高光突出重要元素、创建虚拟阴影模拟物体间的空间关系、运用透明度和渐变产生深度效果,以及合理运用反射和投影效果等。这些策略可以提升UI设计的质量,为用户带来更好的视觉体验。


    1. 引言

    1.1 背景和意义

    UI设计过程中缺乏层次感的问题

    光影在UI设计中的重要性


    1.2 文章结构


    2. 光影在UI设计中的作用

    2.1 层次感的重要性

    层次感的定义和作用

    为什么层次感对UI设计至关重要


    2.2 光影对层次感的影响

    光影营造出空间感和深度感

    光影增强用户对UI界面的理解和感知


    3. 光影增强层次感的策略

    3.1 使用阴影和高光突出重要元素

    使用阴影和高光的原理和效果

    如何运用阴影和高光来突出UI界面的关键元素


    3.2 创建虚拟阴影模拟物体间的空间关系

    虚拟阴影的应用原则和技巧

    通过创建虚拟阴影来模拟UI界面中物体之间的距离和层次关系


    3.3 运用透明度和渐变产生深度效果

    透明度和渐变在UI设计中的应用方法

    运用透明度和渐变来产生UI界面中不同元素的深度效果


    3.4 合理运用反射和投影效果

    反射和投影的应用原则和效果

    如何合理运用反射和投影来增强UI界面的层次感


    3.5 其他光影策略的应用

    其他可以增强层次感的光影策略的应用方法

    如何进一步营造UI界面的空间感和深度感


    4. 案例分析

    4.1 案例一: 手机应用界面设计

    案例描述与分析

    展示在手机应用界面中应用光影策略的效果和效果评价


    4.2 案例二: 网页设计

    案例描述与分析

    展示在网页设计中应用光影策略的效果和效果评价


    5. 结论

    5.1 总结研究结果

    对光影增强UI界面层次感的方法进行总结


    5.2 对未来的展望

    未来进一步研究和探索的方向

    光影在其他领域中的应用潜力


    参考文献


  • UI设计师需要重视用户访谈这一步骤

    研究 2023-08-03
    因此,在进行UI用户体验地图的研究和撰写过程中,UI设计师需要重视用户访谈这一步骤。首先,确定可靠的来源是研究的基础。UI设计师可以通过以下途径获取用户的真实需求和反馈:1. 用户访谈:直接与用户进行面对面的访谈,了解他们的使用习惯、需求和感受。可以选择代表性的用户进行访谈,并记录他们的回答和观点。2. 用户调查问卷:...

    因此,在进行UI用户体验地图的研究和撰写过程中,UI设计师需要重视用户访谈这一步骤。

    uisdc-bb-20230802-11[1].jpg

    首先,确定可靠的来源是研究的基础。UI设计师可以通过以下途径获取用户的真实需求和反馈:


    1. 用户访谈:直接与用户进行面对面的访谈,了解他们的使用习惯、需求和感受。可以选择代表性的用户进行访谈,并记录他们的回答和观点。


    2. 用户调查问卷:设计问卷调查,通过量化的方式收集用户对产品UI的评价和建议。通过分析问卷结果,可以得到更广泛的用户群体的反馈。


    3. 用户观察:观察用户在使用产品时的行为和反应,察觉他们可能遇到的问题和痛点。可以通过现场观察或者录像回放的方式进行。


    4. 可用性测试:将产品的UI展示给用户进行测试和评估,收集他们的第一反应和使用体验。通过观察用户的行为和听取他们的反馈,可以获取更具体的问题和改进方向。


    在获得用户的反馈和需求后,UI设计师可以开始进行UI用户体验地图的撰写。以下是一种组织材料的结构参考:


    1. 引言:介绍研究的目的和背景,解释UI用户体验地图的重要性。


    2. 方法:描述获取用户反馈的方法和过程,详细说明所采用的访谈和调查工具,并分析收集到的数据。


    3. 结果与分析:根据用户反馈和观察数据,总结用户对产品UI的需求、痛点和期望。可以用图表或列表的形式记录关键信息和重要发现。


    4. 设计建议:根据分析结果和用户需求,提出针对性的设计建议和改进方向。可以分为界面布局、交互设计、视觉风格等方面进行讨论。


    5. 结论:总结研究的主要发现和结论,强调UI用户体验地图在设计过程中的重要性,并展望未来的研究方向。


    6. 参考文献:引用所参考的文献来源,以保证研究的准确性和可信度。


    对于UI设计师来说,研究和撰写UI用户体验地图是一项重要的任务。通过与用户的真实接触和了解,UI设计师能够更好地满足用户的需求和期望,从而提升产品的用户体验和用户满意度。因此,UI设计师应该始终将用户放在设计过程的核心位置,以确保设计的有效性和可用性。


  • 社交模块里的动态卡片,怎么设计?

    产品设计 2023-08-03

    在社交类APP或APP的社交模块中,我们常常可以看到动态卡片这类信息展现方式的利用,这类组件的设计常以图文排版为主,虽然不那么复杂,但想设计得当,却仍需注意设计上的一些细节。本篇文章里,作者就对动态卡片的设计方式进行了解析,一起来看看吧。

    一、组件介绍

    动态卡片是用来承载一段、一篇、一条UGC (User Generated Content,用户生成内容) 的信息展示形式,主要出现在社交类APP,或任何APP的社交模块中。

    动态卡片多以图文排版为主,其排版本身并不复杂,但一旦我们说到排版不复杂,就意味着「亲密性」在排版中的重要性前所未有的高,因为越简单的排版越容易感知到亲密性的偏差。

    所以简单的组件想要排好还是有不少需要注意的点的,下面我们就一起来看看。

    二、使用场景

    动态卡片的使用场景相对来说还是比较单一,社交类APP是其主要场景。但目前国内APP的生态习性导致你可能在任何APP中看到社交模块,一旦有社交模块,就必然也会随之出现动态卡片。

    在社交模块中,任何用户发布的帖子(post)、推文(tweet)、朋友圈(moment)、笔记(Note)或类似的即时分享型、并可让其它用户与之进行互动的内容,我们统称为「动态」,这些地方都需要用到动态卡片。

    三、设计要点

    1. 布局

    动态卡片的主流布局有两种,传统社交APP基本上都使用列表流,即一行只展示一个动态的流式布局;但随社交产品的越发垂直和整合,一些APP也开始使用瀑布流式布局来让页面一次承载更多的卡片。

    1)宽松布局——列表流

    列表流是我们常见的动态卡片布局形式,尽管跟传统的等高列表流也有所不同,它的高度实际上弹性相当大,但大致上依然遵循一行展示一个动态的核心思想。

    这种布局的优点在于能够完整地 (或相对完整地) 展示动态发布的所有内容,缺点在于浏览效率比较低,你必须看完这一条才能滑动去看下一条。

    这样的特性让列表流非常适合更沉浸的动态浏览,用户处于更松弛的浏览状态,这种状态非常适合文字阅读,所以我们可以从日常使用的APP中体会到,大多数采用列表流的动态,都以文字内容为主,或至少没有明显的图片/富媒体社交倾向。

    2)紧凑布局——瀑布流

    一些新出现的图文和富媒体分享平台会采用瀑布流式布局。

    瀑布流的优点即一眼能浏览到更多独立的条目,但缺点也是单个条目的信息被大大压缩,在这种情况下图片的占比变得非常大,所以主要以富媒体或图片为核心的社交平台多使用瀑布流式布局。同时也比较适合目的性强的动态浏览状态 (比如搜索)。

    2. 内容

    瀑布流的内容相对固定,也没有太多的东西要讲,我们这里着重讨论一下列表流动态中,都会呈现哪些内容。

    总体来说,列表流动态卡片需要分成三个部分来讨论:发布信息、内容信息、互动信息。

    1)发布信息

    包含发布者的信息、关注按钮、发布时间、发布在哪个细分社区等与发布相关的信息。

    2)内容信息

    为动态的主体内容,包含文字、图片、富媒体和标签,有些APP会把标签做到正文内,也有把标签单独做在底部的做法。

    3)互动信息

    包括点赞收藏转发分享等互动按钮和部分评论,有些APP甚至会在每个动态下方都加一个评论输入框 (例如QQ空间)。

    3. 排版

    有了内容,我们就能聊聊排版了。动态卡片因为信息比较多,所以在细节的排版上有不少细微的差别,这些差别或许只是形式的不同,并没有优劣之分,具体如何选取则需要根据项目需求自行决定。

    1)整体排版

    即上述三类信息块的排版,因为整体只有三块,所以排版来说相对好排,通常做法从上至下依次为发布信息、内容信息、互动信息。

    不同顺序的排版也曾经见过,例如内容在先、发布者信息在后的形式,但近几年是越发少见了。

    2)内容缩进

    除了两端对齐的基本做法,也可以让内容信息和互动信息与昵称对齐,这样做能让卡片的区分更加明显,形成内容归属于发布者的强烈印象。

    3)互动按钮

    位置上,存在均分、偏分、单侧三种情况。

    均分是大多数设计的选择,视觉上更加稳定。

    你如果要问4个按钮的情况该如何各自对齐,我建议是4个按钮按照下方的均居中对齐处理。

    偏分则起源于手机交互中拇指的交互舒适区会稍微偏左侧一点,所以也有不少App会把比较重要的交互按钮放在左侧,不重要的放在右侧。但在大屏手机的时代,右侧反而比左侧更容易交互,所以也出现了完全相反的设计;

    单侧排版则是由于为了稍微压缩高度,把其中一部分内容(例如标签)和交互按钮放在同一行了,所以按钮只能居右。

    4. 图片展示形式

    产品对图片权重的不同定义往往也会影响着图片排版的设计,具体来说,常见的图片展示形式有两种:画报和网格。

    1)画报

    对于图片权重更大的动态卡片,图片会占用更大的区域来进行展示,多图则以画报左右划动的形式出现。

    2)网格

    网格 (或称之为九宫格、宫格) 是更加常见的图片展示形式,非常适合文本和图片没有明显权重区分,或是不希望给以用户某一方倾向的动态类型。

    但我们要注意到,对于某些特定数量的图片,设计师需要针对性的给出适合该数量的布局。例如:单独一张图片的时候,其比例可以随图片的原生比例进行适配,这也可以很大程度上解决视频的适配问题;但两图以上则会将图片比例限制在正方形内。

    再例如:4张图片的时候,为了防止第二行只有一张图片的尴尬情况出现,会特意将四图安排在九宫格的左上四个格子内。

    甚至在某些极端需求下,设计师可能需要单独制定1-9张图各自的展示规则。

    5. 不一样的动态卡片

    1)tumblr

    tumblr的设计当年也是社交App品类中的标杆之一,尽管如今大体早已没落,但早期的交互遗产至今依然有不少在熠熠发光。就比如动态卡片的图片版式,Tumblr允许用户自己定义图片的行和列,每一行有几张图都是可以自己进行调整的,所以在Tumblr中动态的图片排版花样非常多。

    在编辑器中,只需拖动图片到某个位置就能自动完成排版。

    2)Moo音乐

    Moo音乐本是一个音乐App,但是加入了一些车叫元素,所以Moo音乐的动态卡片与音乐有比较强的关联性,我们便能看到动态卡片中出现音乐富媒体的做法。

    四、样式拓展

    这里收集了一些动态卡片的线上案例,也可以作为设计时的参考:

  • 组件详解|级联选择、树形选框、穿梭框,用法有什么区别?

    产品设计 2023-08-03

    本篇文章将阐述级联选择、树形选框、穿梭框这三种组件的基本内容和用法,进一步分析这三种组件的区别,希望能对你提供一些帮助。

    同样都是选择组件,你可能会想:

    • 级联选择(Cascader)是否支持多选?
    • 树形选框(Tree Select)可以怎么用?
    • 穿梭框(Transfer)和前两者的区别是什么?

    本文就来详细分析下这三者的区别和联系,帮助你做好应用。

    一、级联选项 Cascader

    级联选项是一种选择控件,选项以分组菜单的结构呈现:

    其用法特征是:

    1. 通过分组多列进行展示,常用于单选,也可支持多选。
    2. 选项需要有一定的逻辑顺序,从集合到单项进行选择,且最好是符合用户认知模型的集合方式,例如“省、市、区”。
    3. 整体需包含两个及两个以上的层级。
    4. 与输入框连用,以下拉菜单承载。

    二、树形选框 Tree Select

    树形选框也是一种选择控件,选项内容以树形结构呈现:

    其用法特征是:

    1. 单一列表的树形结构,常用于多选,也可支持单选。
    2. 通常适用于选项有一定逻辑顺序的选择场景,体现选项之间的关联性和层级性,比如内容间是“上下级关系”或“权限的包含关系”。
    3. 整体需包含两个及两个以上的层级,第一层级默认收起,避免选项内容过多致使用户需要不停向下滚动操作。
    4. 在页面中占据的空间较小,可与输入框连用,以下拉菜单承载。

    三、穿梭框 Transfer

    还是一种选择控件,以双列列表的结构呈现。

    其特点是:

    其用法特点是:

    1. 在两栏中选中并移动元素完成选择操作,常用于多选,也支持单选。
    2. 两列选项列表中:一列为源列表,一列最终目的列表,即用户可以同时看到选项的来源和归宿。因此左右两列的选项结构应尽量保持一致以便于用户比较和理解。
    3. 强调内容是“移走”而不是“复制”。比如可以用于以下的操作场景:某个权限从 A 手中转到 B 手中(也即当 B 拥有该权限时,A 就不再拥有该权限)。
    4. 占用更多空间,可以展示关于选项内容的更多详细信息、包含更多的层级结构,常用弹窗或新页面来承载。

    四、使用建议 Advice

    1. 关于使用场景

    • 级联选择 Cascader:常用于单选。
    • 树形选框 Tree Select:常用于多选。
    • 穿梭框 Transfer:常用于多选。

    2. 彼此之间的关联

    对于功能类似的级联选择 Cascader 和树形选框 Tree Select,在一个表单中尽量只选择一种组件样式。

    你可以从以下几点条件、结合你的业务需求来综合评估到底选择哪个组件:

    1. 选项的层级数量。
    2. 选项的总数量。
    3. 用户对于选项及其层级所建立的认知模型和心理预期。
    4. 用户通常会如何选择选项(比如是否经常会全选第一层级)等等。

    另外,穿梭框 Transfer 中的选项内容也可使用树形选择 Tree Select 来展示,能够让内容结构呈现更加清晰和有序。

    B 端设计系统和组件设计是值得每一位设计师都深入研究的课题。

  • UI设计测试题如何做?

    产品设计 2023-08-03

    产品设计师工作到‍3年,设计水平几乎没有差异,那么在求职过程中,什么才是让自己脱颖而出的关键呢?本文作者列举了一个求职案例,对此展开了分析,与你分享。

    大环境:最近一两年找工作的小伙伴应该深刻感受到互联网寒气逼人,各个大厂裁员及AI技术的席卷而来,对普通设计师来说亚历山大。

    到个人:聚焦到我们个人找工作时,经常面试过程中就被要求做测试题。现在僧多粥少情况下,我们没得选。测试题常常是现有产品改版之类,那么我们改版到底是如何做呢?

    ‍最近在网上看到一个求职的设计师提交一份关于作业帮的测试题,该求职设计师工作六年,由于测试题没过,他发出来想听听大家的修改意见。我在前面一篇《设计师这样复盘成长更快》提到设计师工作到‍3年,设计水平几乎没有差异,在这位求职者身上得到充分证实,他在设计能力上没有任何问题。

    我们可以看到该设计稿的优点:

    • 瓷片区色彩差异明显,功能诉求清晰,可点击感强
    • 球区及tab栏图标绘制规范,视觉统一,特征明显,符合目标用户审美
    • banner设计整体设计融入IP形象,加强用户对品牌的形象感知
    • ……

    这些优点放在三四年前找份工作信手拈来。但如今市场变了。在设计资源过剩的情况下,期望得到一份不错薪水,仅凭「没有问题」竞争力似乎稍弱了些。

    • 品定位:工具性产品、内容推荐性产品
    • 目标用户:小学、初中、高中学生及其家长
    • 学生用户特征:大脑、身体发展阶段、有强烈好奇心、积极正向的社交、情感需求、个性化需求

    前面分析一直到这里我都感觉没什么问题,下面问题就来了~

    01 问题一:现状问题待深挖

    「设计现状:品牌感知弱;设计样式陈旧;一致性差、信息层级关系不明确」

    在我司这样写设计现状估计被怼,我司一直强调结果导向,也就是说这个设计现状解决了之后能给产品带来什么实质性的好处,如果有如何证明?如果没有还有必要花资源去做吗?

    工具性产品特性就是用完即走,内容型产品主要以UGC和PGC为主,品牌感知、设计样式、一致性问题本质上是不影响用户使用产品的,那么这3个问题其实对产品来说无关痛痒。

    如果这里设计师向前走一步深挖一下,以身边的用户做个定性调研或问卷,最后得出具体的3个问题,再根据得出的问题推导设计目标,最后把这整个过程写到测试题上是非常加分的,每一步合理且严谨。

    以上是我之前写的设计如何提升话语权中的设计工作流程,感兴趣的同学可以翻来看看,其中挖掘问题这块非常重要,直接影响后面的设计目标。

    由于前面设计现状提出的问题可能根本不是解决产品真正的问题,所以得出的设计目标其实也是错误的推导。单拧出这里设计目标的3个点,其实非常套路,因为这3点放在任何产品上都成立。

    比如针对电商产品:强化品牌认知、视觉语言升级、简化层级,提升易用性,好像也没毛病,面试官看到这里后面不用看都知道你的答案了,那么在视觉部分如果如果不够出彩,那么结果可想而知。

    02 问题二:页面布局&交互方式

    方案A:

    • 方案A和设计改版前布局上几乎没有差异,仅设计样式上的更新
    • 方案A活动区1胶囊banner使用IP形象没有考虑拓展,如果换一个活动怎么做出2个活动之间的差异?没有给出解决方案
    • 方案A弱化活动区2模块,可以看出是突出瓷片区和球区,解决信息层级关系不明确这个问题,但是整个底部色彩明显就暗沉了,是否符合小初高学生用户的审美?或者说有没有更合适的方案?或者改版前靠运营活动拉新,这样改版造成数据下降怎么解决?

    方案B:

    1)交互方式

    方案B中可以看出该同学想提升瓷片区和球区点击率,但是首页交互用一个不太常见的方式去扩充的内容承载能力。可以看到市场上大多数APP首页都没有加入很复杂的交互方式,对于低龄用户是否越简单越好呢?当然我这仅是个猜想需要去证实。

    这让我想起工作中常常遇到一种情况,产品需求通常是一直加页面上加内容,做上个需求时,设计需要重点突出模块A,等到做下个需求时设计又要突出模块B…这样不停的累积叠加,重点内容越来越多,界面越来越花越来越没重点,作为设计师的你是怎么解决呢?

    2)页面布局

    为了创造出人眼遵循的正确途径,我们需要了解眼睛是如何处理信息的。如果你能预测用户的视线将会占有极大的优势,在布局页面元素时前,你就可以知道优先的该摆放在什么位置,一旦你知道你想要用户先看到什么,你就能可以通过视线的规律将你的重点内容放在用户的“热点”里。

    所以容易点击 ≠ 点击,所以改版前的方案瓷片区+球区放页面上方也不能全盘否定。

    页面布局的核心——让用户快速获取信息。不管是看拼多多还是美团,工具型产品更明显,打开APP的最初目的都在界面上寻找信息,找到后就操作,然后继续找……如此循环。别说你就逛逛,你逛着逛着为啥就买了,因为你潜意识逛就在判断这个东西自己是否需要。

    所以点击流程应该是:讯息被看到 → 判断是否需要 → 是否点击。内容放在易点击区域,只能说明该内容容易被操作,那操作动机是什么?你再怎么容易点击,一个界面就一个按钮,他不需要也不会点,俗话说叫不醒一个装睡的人一样的道理,设计要做的应该是加大这个点击动机。

    截图右侧是目前线上版本,可以看出该产品对不同年龄用户精细化运营。两个版本比较可以看出拍照搜题是该产品核心功能,其它功能针对不同年龄用户层设计,2个版本都遵循第一视觉区原则。

    另外:页面内容布局考虑了用户习惯,但是我们需要观察小孩子使用手机方式,用父母手机、自己手比较小,如果怕摔很可能是双手去使用手机,而图示是单手使用手机用户的习惯,操作体验合理性需要证明。

    03 问题三:内容差异性

    在课程推荐这块融入统一的IP形象,统一的品牌色,封面的差异性需求仔细读文字才能区分,这个设计看着就很不专业。

    前面学生用户特征:大脑、身体、心理发展阶段强烈好奇,个性化需求,统一的模板完全违背了用户特征,再不济也可以用课程标题文字字数区分课程封面,3个字、5个字、8个字…不同字数设计不同排版的封面区分不同的课程。

    我记得之前K12课程火爆的时候,封面通常是讲课老师形象+不同的背景色区分,既可以传达老师的专业性,又可以区分不同的课程,还是比较好的解决方式。

    04 如何解决

    说了这么多相信看到这的同学肯定会说BB了这么多,咋不看你动个手啊,动动嘴皮子谁不会啊!其实还是我前面一句话,设计师工作到3年或以上,设计水平差异性很小,到这时候是设计思维的差异,是解决问题的能力。

    例如前面提到提高瓷片区的点击率,该同学的解决办法是改变交互方式放在易点击区,如果是我,就现状问题这块,我会深挖:

    • 周围K12用户做个调研,听听用户的声音,及各种渠道的用户反馈
    • 竞品分析,琢磨差异点背后逻辑
    • 网上可以收集到的各渠道数据表现分析
    • 结合自己使用体验总结分析

    至于如何做调研、做竞品分析……这些资料网上很多,后面有机会可以和大家讨论。我们只有在深入了解后重新定义要解决问题,重塑设计目标,设计目标定下后就设计执行了。

    注:以上仅个人观点,欢迎讨论。

  • 帕累托原则 | 设计师需要知道的设计原则!

    产品设计 2023-08-03

    前人留下的一些设计原则能够帮助我们更好地进行页面以及产品的设计,让用户有更好的体验。本文对帕累托法则进行了介绍,希望能帮助大家在以后的设计中更好的理解与运用。

    威廉·斯特伦克(William Strunk)说过:“优秀的设计师有时会无视设计法则,但当他们这样做的时候,通常会有一些补偿性的措施,除非你确定你能做得那么好,否则最好还是遵守这些法则”,所以设计师需要对一些通用性的法则有所理解,做好相应的知识储备,以便在需要时从中找寻相通的规律和事务的本源。

    设计常常是以一种美观且富有规律的形态出现,不论大家是何种姿态、什么样的知识背景,一旦踏入设计领域之后就会忍不住的去寻求设计法则,探索期背后的设计规律,因此经过长期沉淀,一些大佬和前辈们留下了大量的通用设计法则。

    今天,笔者就说说帕累托法则,希望能帮助大家在以后的设计中更好的理解与运用。

    一、认识帕累托法则

    1. 帕累托法则的背景

    19世纪末,意大利经济学家和工程师维尔弗雷多·帕累托(Vilfredo Pareto)发现,自家花园中80%的豌豆产自于20%的豌豆荚,在随后研究土地所有权和财富不平等的问题中,再次发现意大利 80%的土地属于 20%的人。

    20世纪初,由管理学家约瑟夫·朱兰(Joseph Juran)将其命名为帕累托法则,即80%的结果是20%的原因造成的,并且号召关注「重要的少数」而不是在「琐碎的多数」当中投注精力。后续在经济学中得出结论(80%的财富掌握在20%的人手里)更加证实了帕累托法则的观点。

    2. 正确理解80与20

    帕累托法则有很多不同的叫法,如帕列托法则、关键少数法则、二八法则、巴莱特定律、最省力的法则、不平衡原则等,后续笔者将其称为「80/20法则」。

    其实,80/20法则是一个较为抽象的概念,可以理解为:大部分的效果由少数几项关键的因素来决定。在实际的场景中,“大部分”不是精确的80%,“几项关键因素”也不是固定的20%,数据会有所浮动,可能是70%+30%或者90%+10%,但不管这些数字如何波动,其背后蕴含的规律(集中的投入将产出大于预期的结果)是不变的,并且生活中存在的许多不平衡现象,都与这个规律相当接近。

    3. 可适用范围

    80/20法则并不受人为直接控职,更多时后是自然而然的形成,其适用领域非常广泛。早期大多数用于社会、经济、管理以及工程等领域,而在80年代末就已经有设计师将其设计领域,在各行各业中,已经有大量的案例证明了 80/20原则:

    • 人类80%的科学发明,来自于20%的人口
    • 社会上20%的人占有80%的财富
    • 城市80%的交通,集中在20%的道路上
    • 20%的客户为公司贡献了80%的收入
    • 公司80%的收益来源于20%的产品
    • 20%的网站获取了 80%的网络流量
    • 20%的常见软件错误导致了80%的系统崩溃
    • ……

    4. 设计领域中的运用

    70年代中期出现图形化界面,而到80年代末,80/20法则就已经被设计师引用在设计规范当中,后续经过不断的发展及优化,现已深入设计中的方方面面,PM用来处理KPI、UX用来划分权重、UI用来决策版面布局等。

    界面设计中该如何应用80/20法则,这就需要设计师时刻注意如何让用户更快找到目标、如何更顺畅的完成任务以及如何拥有更愉悦的心理感受。例如80%的用户只会用到20%的功能,那么设计师就应该将80%的时间、精力集中在这20%的功能上,不断迎合用户需求以及使用体验。

    二、产品如何应对80与20

    1. 关键性的20%

    80/20法则能够帮助我们提供决策思路、梳理设计方向,通过前面的了解,我们应该清楚了产品80%的用户只会用到20%的功能,而80%的收益也恰恰来自于20%的付费用户,甚至低于20%。

    虽然一直呼吁尽量满足所有用户,但产品团队的重心始终要围绕着20%来进行,从产品到设计、再到开发测试,都能以此为方向制定问题的解决方案。

    2. 非关键性的80%

    任何一款产品都不能忽略主次,每隔一段时间就要重新评估功能价值,以备后续的更新迭代,针对非关键性的80%切勿耗费过多的精力,以免喧宾夺主,不仅得到不好的反馈、还会带来不必要的损失,吃力不讨好。

    对于已经过期的核心(曾经20%)功能,需要及时降低权重以及精力的消耗,不然即便是掌声一片、也可能无法变现。

    3. 仅关注 20%有风险

    用20%的部分创造80%的价值,并不意味着只关注20%的关键性指标、其它的就可以被忽略,这样做表面上看是挺诱人,但会让其他很多指标停滞,呈现出产品过度优化的情况,造成短时间内隐藏的负面影响。

    团队应该要有众览全局的眼光,考虑到各指标间的相互影响,可视情况而定将时间和精力合理分配,如90%+10%、80%+20%、70%+30%等,只要是将大部分用在关键性指标上即可。

    三、在UI设计中的运用

    在UI设计中,我们会将主要精力花费在20%的页面设计上,例如APP底部标签栏的几大主页或其它重要的一/二级页面,会花费更多的心思去构思不一样的布局、表现手法,将设计功底凸显出来。而剩下80%的页面就相对机械化,会使用一些常规样式以及复用的方式像搭积木一样快速完成,成本之低、效率之高毋庸置疑。

    同一个页面的设计方式也是如此,设计师将大量心思放在首屏及位置靠上的功能上,待超过一屏后下滑时,设计也会逐渐轻量、组件化,这有助于节省产品、设计、开发更多的时间。

    1. 排版布局(F型)

    用户浏览屏幕时,眼球移动的顺序通常都是从左到右、从上到下(基于网页浏览眼动测试),这种移动轨迹很像字母「F」,这也让F型布局成为网页设计中效率最高的方式之一,所以设计师通常会将重要的信息放在左上角或左侧,不重要的信息放在右侧。

    如下面这张眼动测试图,F型布局也正好诠释了80/20法则合理性与可行性,在页面中20%的关键区域,吸引了用户80%的注意力。

    2. 功能入口设计

    很多产品因为业务功能的庞大,一股脑的将信息全部展示出来,看起来十分臃肿,用户不能快速找到自己想要的信内容,就会失去信心。

    优酷APP首页将热门频道和点击频率较高的频道显示在顶部导航中,如精选、电视剧、电影、最新院线等,而其他更多的分类则隐藏在频道选项卡中,将少量(≈20%)重要的内容放在明显的位置,目的就是为了让大部分用户更快触达,提高了产品的易用性。

    3. 选项列表设计

    在一些选项列表中,由于选项数量的庞大,会给用户增加使用难度。

    例如,使用美团购买火车票在选择地址时,面对超长的地址列表,逐个查看或通过字母筛选,都要花费一定的时间和操作成本,即便可以通过码字搜索来完成,但因为自行输入有很多的不可控性,能让用户选择的就不要让其输入。

    对于地址列表,除开自动定位和搜索历史,运用80/20法则就能很好的解决这一问题,系统将约20%高频选择的热门城市作为单独的模块放在全部列表之前,提高了大部分用户的搜索效率。

    4.  极简风格设计

    极简风格的界面设计跟80/20法则在精神上保持着高度的一致,剔除多余、无用的元素,而保留的每一个元素都是有目的、有针对性的,也是绝对必要的存在。在极简主义设计中,视觉上简单干净,大部分都是通过通过留白来衬托关键性元素的存在,让用户更加聚焦于主要功能/信息。

    四、与其他法则的纠葛

    1. 与奥卡姆剃刀的结合

    奥卡姆剃刀指出「如无必要,勿增实体」,需知页面中每多一个元素都会增加视觉“噪声”,意味着用户需要花费额外的时间和理解成本,对用户体验的影响是很大的。那么问题来了,当产品需要增加一项需求量小但确实存在的功能,该怎么处理?

    这时我们可以将奥卡姆剃刀原则作为最终的评判标准,是否需要增加上述所说的功能,就要看看能否很好的控制团队开发成本和用户体验成本。

    其实在80/20法则中,很多小众但确实存在的功能需求基本很难抵消所造成的用户体验损失,所以即便实现了这个需求,也很难分配出20%的精力去维护与迭代,甚至“俺耳盗铃”般的将其遗忘,但这个视觉“噪声”一直存在,如果事先能分析出这种结果,这个需求根本不需要增加。

    2. 与长尾模型的对抗

    在2004年长尾模型才被提出来的时候,很多人认为这是在颠覆80/20法则,它们的曲线长得很像,但结论完全相反,那条长长的“尾巴”(非关键的80%)所占据的长度几乎与头部的(关键的20%)高度相当,这说明收益虽低,但这么多数量的累积,依然值得重点关注。

    所以有很多企业在采集差异化战略时运用了长尾理论,例如小米搭建的全品类商城用的是长尾理论。

    乍一听好像很有道理,难道80/20法则被推翻了吗?事实并非如此,长尾理论的成立必须要满足两个条件,第一是尾巴真的足够长(小众需求确实非常多),第二长尾巴能被用户发现(庞大的用户量),这两个条件缺一不可。例如京东、淘宝、微信、支付宝等,其前提都是建立在大规模、且海量的用户资源之上,不管多么隐蔽、多小的动能,总能拥有一些不错的曝光度,所以才能发挥长尾模型的作用。

    说道这里,大家应该就明白了,那些中小型的产品对长尾模型大多是望尘莫及,所以在你的产品规模、用户量没有达到一定的级别之前,就不要妄捧长尾模型,用好80/20法则就好。

    五、结语

    80/20法则在实际工作中是一个相对普遍的定律,它能让我们灵活思考设计问题,更好的为用户服务,虽然80/20法则也存在一定的争议,但还是适用于觉绝大多数的场景,在关键时候使用,能帮助我们准确的找到问题点,在有限的时间和精力下快速作出优化决策并、关注核心功能,最终达成目标。

  • 智能座舱——语音交互系统

    产品设计 2023-08-03

    本文作者从什么是语音交互、语音交互的底层技术、智能座舱的语音交互等方面,对智能座舱语音交互系统相关的知识进行了梳理与总结,希望能给你带来一些帮助。

    出于学习-总结的目的,在我从什么是智能座舱、智能座舱的发展驱动因素、智能座舱的构成要素三个方面梳理我对智能座舱的基础认识之后,为了加深“智能座舱产品入门”课程中语音交互部分知识的理解,我从什么是语音交互、语音交互的底层技术、智能座舱的语音交互等方面,对智能座舱语音交互系统相关的知识进行了梳理与总结。

    一、什么是语音交互

    语音交互:语音是方式,交互的对象是任何的智能设备,顾名思义,即通过语音的方式完成人与机的交互。

    在现今的各种智能化场景中,语音交互已成为一种非常关键的人机交互方式。从用户的角度来看,语音交互的核心价值主要体现在释放用户的双手,使得人与机之间的交互变的更高效便捷。

    然而,从用户发出语音指令到实现与智能设备的交互,其过程并不像其名词描述的那么简单,要实现通过语音来完成人机交互,要解决解决三个关键问题,如何让机器听清用户的语音内容?如何机器理解用户的意图?如何让机器执行用户的意图?,解决这些问题的的过程是复杂的,其背后涉及到多个复杂的技术环节,如语音识别、自然语言理解、对话管理、自然语言生成、语音合成等。

    二、语音交互的底层技术

    1. 语音识别

    在语音交互系统中,用户的语音信号需要经过多个处理阶段才能得出正确的结果,而语音识别是实现语音交互的第一步,其在语音交互系统中负责对用户的语音信号进行前置处理,通过对用户语音信息的预处理、解码等关键任务,最终得到语音信号对应的文本内容,从而实现机器听清的用户的语音内容。

    1)语音输入

    用户通过麦克风输入内容语音,例如:打开空调。

    2)预处理

    预处理是语音识别过程中的一个基础性步骤,它的意义在于对录音文件进行分帧、去除噪音、语音增强、加窗等预处理,提取出有效的声音特征,用于后续的语音内容分析处理。

    ①去除噪音

    由于用户环境因素影响,MIC设备录制的声音,除了人声,可能还会包各种噪音,那么为了语音识别的准确性,在识别前就需要先处理掉原始音频中的噪音部分。

    去除噪音的实现过程大体可以理解为:首先提取原始音频中声音的频率、时域、能量等特征,通过对这些特征的对比分析区分原始音频中的人声和其他声音,然后通过滤波、降噪算法(基于频域的傅里叶变换、小波变换,或者基于时域的信号平滑法)等手段,实现去除噪声的目标。

    ②预加重

    在语音输入的过程中,由于环境和距离等影响因素,MIC录制声音可能会出现高频衰减和低频增益等失真现象,这将会影响后续语音识别的结果。

    例如:用户的语音内容为“apple”,由于高频信号被衰减掉,录制的声音中可能只留下了“p”和“l”的较强信号,这将导致语音识别系统误认为说的是“pl”而不是“apple”。 针对这种现象,预加重通过加强高频成分的能量和减少低频成分的能量,让不同频率的音频信号能够在信号处理过程中均衡化,从而提高语音识别的准确性。

    为了更形象的理解“预加重”,可以将其类比于在图像中的“锐化”,使得边缘更为清晰。

    ③分帧

    原始语音信号是一个连续的波形,是一种时间和频率上都变化较快的信号,在语音识别的过程中,如直接对连续且长的语音进行计算处理,会增加计算的难度降低识别的准确性。因此,为了提高语言识别结果的准备性,需要将连续且长的语音信号分为若干个固定长度的帧,分帧后每帧内的信号的频谱变化就会较为缓慢、稳定。

    例如:以“打开空调”为例,假设录制的语音时长为2秒,采样率为16000Hz,那么原始语音信号就是一个长度为32000的一维向量,如果直接对这个声音信息进行语音识别,计算量会非常大,而且由于语音信号的频率和幅度变化非常快,很难进行有效的特征提取。

    ④特征提取

    完成去噪、预加重、分帧等前端处理后的语音信号,不能直接用于识别,还需要将其变换到频域,然后利用线性预测倒谱系数(LPCC)和 Mel 倒谱系数(MFCC)等方法,从语音信号中提取用来描述语音信号的各种特征,以便识别模型能够更好地对其进行分析和区分,这些特征包括:帧能量、音调(调子、语气等)、基音频率、音周期、共振峰、谐波结构、声道特性等。

    为了更加形象地理解“特征提取”,可以将其类比为制作抖音电影解说短视频,在制作的过程中,你需要从完整的电影中筛选出最精彩、最有代表性的片段,需要对整部电影进行剪辑,然后把这些片段组成一部短视频,以便于快速地展现电影的精华和主题。

    ⑤其他

    原始音频的预处理,除了去除噪音、预加重、分帧,还有加窗、语音信号能量归一化、频率滤波、动态特征等,具体可以参考专业资料。

    3)解码

    在完成原始音频信号的预处理与特征提取之后,需要将提取到的特征输入语音识别模型中通过声学模型、词典、语音模型的协同计算来得到最终的识别结果。

    ①声学模型

    声学模型负责对语音信号进行特征提取和处理,生成一系列特征向量,然后使用这些特征向量来计算每个可能的音素的得分,并根据得分选出最可能的音素序列。

    ②词典

    在生活中,我们有认识的字的时候,可能会通过网络搜索或查字典的方式去寻找答案。在语音识别系统中,也有需要一个词典,用于识别音素对应的汉字(词)或者单词。语音识别系统中的词典包括了一系列的词语和它们对应的音素序列,这些音素序列反映了词语在语音信号中的语音学特征和发音方式,通过将语音信号的实际发音与词典中存储的发音进行匹配,语音识别系统可以推算出说话人所说的词语。

    ③语言模型

    在通过声学模型与词典,得到一组候选词语或句子的情况下,最后需要通过语言模型得到符合用户表达内容的结果。语音模型的作用就是通过统计文本中词与词之间的关系和概率,预测一个词语或句子出现的概率大小,从而对识别出的多个文本候选结果进行打分、排序和筛选,最终,得分最高的结果就是系统认为最符合用户表达内容的结果。

    举个例子:如果用户说的是“我想要一杯咖啡”,在语音识别的过程中,可能会产生如下多个候选句子:
    我向要一杯咖啡、我想要一辈咖啡、 我想要一杯可菲 、我向要一杯咖啡色菲 ,语言模型通过预测每个识别候选结果的概率大小,就可以计算出每个候选结果的得分,从而筛选出最符合用户表达内容的最终结果,“我想要一杯咖啡”。

    4)输出结果

    指最终输出识别结果,即转换后的文本或指令等形式的结果。

    2. 自然语言处理

    1)自然语言理解

    在完成用于语音内容的识别之后,要让设备能顺利执行用户的意图,还需要自然语言处理(NLP)算法模型对计算机可识别的文本进行分析和处理,以理解用户语言的含义和意图,并根据需要进行相应的回答或操作,一般情况下,NLP算法模型对文本的处理过程包括包括词法分析、句法分析、语义分析等多个环节。

    ①预处理

    为了降低文本处理的复杂度,提高算法的精度和效率,文本本输入自然语言理解模型前,需要先进行预处理,如去掉句子中的特殊字符、停用词、将所有字母变成小写等。

    例如:停用词是指一些在自然语言中使用比较频繁但实际上并不具有实际含义,对于句子的语义理解贡献较小的一些词语,比如一些代词、介词、连词等等(如“的”、“和”、“就”、“在”、“用”等),这些停用词虽然常常出现在文本中,但是对于计算机理解句子的真实含义并没有太大帮助,只会增加文本处理的复杂度,降低算法的精度和效率。

    ②分词

    自然语言理解模型,在理解在自然语言文本时,不是整句直接分析的,而时通过对自然语言文本的每个组成部分(如单词、短语等)的含义进行深入的分析和理解,进而确定整个文本的含义。 因此,在对文本进行预处理之后,需要对文本进行分词操作,将文本按照一定的规则切分成一个个词语,它的目的是将文本转化为计算机可以处理的离散的词语序列。

    举个例子:以“导航去宝安机场”为例,通过分词,可以得到以下词语序列:导航 / 去 / 宝安机场。

    ③词性标注

    对每个词语进行词性标注,即确定每个词语在句子中的词性,通过对每个词语进行词性标注,可以确定词在句子中的语法角色和含义,从而更准确地进行语义分析、句法分析等任务。常见的词性包括名词、动词、形容词、副词、介词、连词、代词、数词、量词、助词、叹词等。

    举个例子:以“导航去宝安机场”为例,“导航”:名词;“去”:动词;“宝安”:名词;“机场”:名词;通过这样的词性标注,可以分析出“导航”为主语,“去”为动词,表示导航的动作,“宝安”、“机场”由于都是名词,可以确定它们是导航的目的地。

    ④实体识别

    指从文本中识别特定实体,例如如人名、地名、组织机构名等,通过实体识别,计算机可以更准确地理解文本中的内容。

    举个例子:以“导航去宝安机场”为例,实体识别可以识别出“宝安机场”是一个地名实体,通过这一步得到的结果,计算机可以更好地理解用户的意图。

    ⑤句法分析

    对句子的语法结构进行分析,确定句子中各个词语之间的关系,其意义在于理清句子中的语法结构和词语关系以便于计算机进一步理解语音交互中的用户意图。

    举个例子:以“导航去宝安机场”为例,句法分析可以将这个句子分析为“导航 去 宝安机场”,从中获取到“导航”是动作, “去”是一个方向,“宝安机场”是具体的地点信息,这些信息对于计算机进行后续处理是非常重要的。

    ⑥语义分析

    在完成预处理、分词、词性标注、实体识别、句法分析等前置任务之后,接下来就需要进行最后的语义分析,例如:情感分析、主体提取、语义联想、语义角色标注、槽位信息等,其主要意义是更全面地理解用户输入的意图,帮助计算机能够更好地理解用户输入的内容,从而根据用户意图执行相应的操作。

    举个例子:以“导航去宝安机场”为例,经过语义分析后,计算机可以清晰地理解用户的意图,即需要进行导航操作,并且目的地是宝安机场。

    ⑦结果输出:将经过预处理、分词、词性标注、实体识别、句法分析、语义分析处理后的结果,按结构输出给自然语言处理中的对话管理模块,进行进一步处理。

    举个例子:以“导航去宝安机场”为例,自然语言理解最终输出的结果为“动作-导航,目的地-宝安机场,起点-当前位置。”

    2)对话管理

    在自然语言理解对语音识别的文本进行分析处理之后,需要对话管理系统进行意图识别,确定用户想要做什么,并且根据所处的对话状态进行状态跟踪,决定下一步需要执行的操作或回复用户的方式,这个过程包括根据用户输入的信息选择相应的策略、控制多轮对话流程、解决歧义等。

    对话管理系统是基于一个预先定义好的对话模型工作,对话模型中定义了对话流程、对话状态、对话策略等,在对话管理过程中,系统会使用这个对话模型来处理用户的请求。

    ①意图识别

    在通过自然语言理解对文本的分析处理,得到用户意图的关键词之后,对话管理系统负责将用户意图的关键词与预设的意图库(或指令库)进行对比来确定用户的意图,并进一步决定下一步的操作。

    举个例子:以“打开空调”为例,语音助手接收到语音信号后,会先进行语音识别,将语音信号转化为文本,然后,自然语言理解系统会对转化后的文本进行解析,提取其中的关键词和语义信息,比如“打开空调”,理解用户的意图,接下来,对话管理系统会根据用户的意图进行响应。

    ②对话状态跟踪

    指的是记录和维护整个对话过程中的各个状态信息,以便在后续的对话中进行参考、分析和处理,状态信息包括上下文、用户意图、技能选择等等。

    举个例子:当用户询问“今天下雨吗?”,对话管理系统可以通过状态跟踪,结合当前的用户意图和上下文信息,快速准确地回答用户问题。

    3)自然语言生成

    在语音交互系统中,当对话管理系统确定要继续与用户对话或反馈执行结果的时候,此时需要自然语言生成模块根据对话管理系统的指令,从相关的知识库或语料库中提取信息,以及根据语境和上下文信息,将结构化数据转化为自然、逻辑连贯的文本,以人类语言回答用户的问题、提供建议或执行任务,其生成自然语言的过程一般包括:句法分析、语义分析、语法分析、信息抽取、输出文本等步骤。

    举个例子,当用户询问“明天的天气如何?”时,自然语言生成模块可能会根据当前的时间和位置信息,生成类似于“明天的天气为晴天,最高气温27℃,最低气温18℃”的文本回复内容。

    3. 语音合成

    在通过语音识别、自然语言理解、对话管理、自然语言生成对用户的语音信息进行分析处理之后,最后想要机器开口与人交流,则需要语音合成系统将自然语言文本转化为语音并通过输出设备输出给用户。

    语音合成系统既是语音交互的终点也是起点,是语音交互系统的的重要底层技术之一,它基于语言模型、声学模型、音频处理等技术,通过文本前置处理、声学特征生成和音频合成等关键步骤,将自然语言文本合成为高质量、自然流畅的人类语音。

    1)文本前置处理

    在计算机获得一段文本之后,要让计算机像人类一样开口讲这段文本讲出来,首先需要让机器知道文本中字、词如何发音和文本要表达的意思与文本里蕴含的情绪。因此,在语音合成系统中,第一个关键任务对文本的前置处理,具体包括:分词、词性标注、句法分析、韵律预测、字形转音素、对音字与变调分析等。

    举个例子: 举个例子,比如输入一段文本:“明天下雨,出门记得带伞。”在文本前置处理的过程中,可能需要经过分词、音素标注和添加天气标签的处理,变成:“明天/t 下雨/v ,出门/v 记得/v 带/v 伞/n ,天气/t 标签/rainy。”

    2)声学特征生成

    要想让机器像人类一样将自然语言文本内容有韵律、顿挫、情感地说出来,就需要让机器知道自然语言文本中每个音素的声学特征,包括基频、时长、频谱形态等,这些声学特征是语音信号的特征,用于描述和控制语音信号的音色、音高、节奏等方面。

    因此,在完成文本预处理后,要将自然语言文本内容合成为最近人类表达的语音内容,就需要先将自然语言文本转换成发音单元(音素),然后利用特定的算法将音素序列转化为对应的声学特征。

    3)音频合成

    这一步是将前面处理好的声学特征和文本信息进行结合,最终合成音频文件,作为语音合成系统的输出。具体来说,关键任务包括:波形合成、合成后处理等。

    小结:以上我从产品的视角,基于课程内容、专业资料结合自身的理解,梳理的我对语音交互系统底层关键技术的理解,目的不在于学习语言交互相关的具体技术知识,而是知其大概原理。如存在歧义,欢迎交流,并建议参考相关的专业书籍与资料。

    三、智能座舱的语音交互

    1. 语音交互对智能座舱的意义

    在传统的汽车座舱内,存在着大量的传统机械和电子设备,驾乘人员在执行驾驶任务或使用汽车功能时,需要不断地操作各种控制器和按钮,以控制车辆的速度、方向、功能等,这些操作可能同时占用驾乘人员的双手、手眼、双脚,不仅繁琐和复杂,还容易导致驾驶疲劳和注意力不集中,从而增加驾驶安全的风险。

    因此,为了提高汽车驾驶的安全性和舒适性,语音交互系统被应用在汽车智能座舱中。语音交互系统通过语音交互的方式来代替部分驾驶操作,从而可以让驾乘人员的双手、手眼、双脚更多地用于安全驾驶和应急操作。例如,驾乘人员可以使用语音指令来操控空调、导航系统、音乐播放器等,而不需要手动操作控制面板,减少了驾驶员的分心和疲劳,在一定程度上提高了驾驶安全性和方便性。

    从消费者的角度来看,语音交互系统不仅可以通过被动的接收用户的指令,帮用户高效地完成人与车交互,而且可以为通过主动式的交互为用户带来更智能化、情感化的人车交互体验。在当前“人机共驾”阶段,语音交互是座舱内最直接、最人性化、最完全的交互方式。

    从厂商的角度来看,由于语音交互系统具备较大个性化、自定义空间,厂商可以基于结合品牌定位与用户需求,为用户打造具有差异化特征语言交互系统,在品牌差异化发展中发挥着重要的作用。另外,基于用户的个性化需求,在基础语音服务的基础上衍生除很多付费服务场景,例如,在samrt精灵1号上,付费的语音助手形象,付费的音助手装扮。

    2. 智能座舱语音交互场景

    基于用户、场景、需求,以语音交互系统为起点,我们可以将智能座舱语音交互的场景抽象的分为主动交互场景和被动交互场景。

    1)被动交互场景

    当我们在讨论“人机交互”时,大部分情况讨论的是“被动式交互”,它的实现逻辑很简单,即由人给机器发号施令,机器执行并输出结果反馈给人。如,传统的被动式语音交互,是由用户主动向机器输入语音指令,然后由机器对用户的音指令进行分析、处里并执行,以实现特定的功能,其能为用户提供的最大价值仅仅是“君子动口不动手”。

    在人与车的交互场景中,被动式的语音交互,仅能实现的是“不动手”地去实现车身功能、信息娱乐的功能的控制。这种被动式的交互,在某些情况下还是会分散用户的注意力,从而造成安全隐患,例如:用户在发起语言指令的时候,视线和注意力可能会从驾驶任务上转移。

    2)主动交互场景

    不同于被动式交互,主动式交互以机器为起点,机器可以自己主动地输入信息,主动输出执行结果或建议给用户。

    在人与车的交互场景中,语音交互系统可以与其他模态交互融合,基于人、车状态和内外部环境,通过传感器、摄像头等设备主动输入信息进行决策判断,为用户提供主动的服务,例如:主动关怀服务、提醒服务、推荐服务等,主动式的语音交互,在一步提高人车交互效率的同时,还可以为用户提供更加智能化、情感化的人交互体验。

    3. 智能座舱语音交互系统基础框架

    智能座舱的语音交互系统是一个高度复杂的综合系统,它不仅需要精密的硬件与软件协同配合,同时需要专业的运营管理来保障其可靠性和稳定性。总的来看,整个系统可以分为硬件层、服务层、应用层和运营管理平台四个组成部分。

    1)硬件层

    在语音交互系统中,硬件层是智能座舱语音交互系统的物理基础,关键的硬件设备包括输入/输出设备和音频处理芯片,其中输入/输出设备负责采集用户的语音指令和反馈信息,主要包括:麦克风阵列、扬声器、摄像头、传感器、灯光等,芯片部分主要负责音频信号的处理与分析,主要包括数字信号处理器(DSP)、音频解码器、音频放大器等。

    2)服务层

    服务层是智能座舱语音交互系统的核心,它承担着语音、图像等信息的处理和解析,并提供必要反馈和响应的重要任务。主要包括自然语言处理(NLP)引擎、语音识别引擎、语音合成引擎、声纹识别、云端服务、API服务、业务逻辑处理服务等模块。

    3)应用层

    应用层是指基于服务层提供的核心能力与用户的实际需求相结合,为用户提供的具体应用程序,以帮助用户通过语音交互实现具体的功能控制。例如,车身控制模块中的空调控制、座椅控制、车窗控制等应用,以及信息娱乐模块中娱乐、通讯、导航等应用。

    4)运营管理平台

    用户在使用语音交互系统的过程中,会产生大量的用户行为数据与音频、文本、图像数据,运营管理平台通过对这些数据的统计分析,为语音交互系统与各种AI模型的持续优化提供数据支持。从业务角度分类,运营管理平台主要分为两大核心模块:用户数据统计分析和模型数据运营。

    • 用户数据统计分析模块,可以对实车用户使用语音交互系统的行为数据进行统计和分析,从而生成不同维度、不同粒度的分析报表。这些报表可以帮助我们深入了解用户使用习惯和偏好,及时发现并解决系统存在的问题,为语音交互系统的优化提供数据依据。
    • 模型数据运营模块,可以通过对用户在使用语音交互系统过程中产生的大量音频、文本、图像数据的定期回收与采集、标注,生产出各个AI模型需要的数据,为模型训练提供数据支持。

让你的品牌快速脱颖而出,抢占市场份额,提升销量
免费获取方案及报价
*我们会尽快和您联系,请保持手机畅通