-
AI绘画是如何发展至今的?浅聊AI绘画发展史
UI交互 2023-04-16关于 AI 绘画,过去已经谈过一次。相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。关于 AI 绘画,过去已经谈过一次。
相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。当然,还有无数好事者的呐喊助威,各怀心思。Ai 绘画目前更像一个人工智能玩具、素材制作、灵感参考、绘画新工具的存在。我们要敬畏它,学习它,运用它,但不要过分焦虑。
这里头有两个重要问题有待解决,其一是版权。如果 AI 生成图像跟成名艺术家过于相像,容易形成抄袭一类维权纠纷。这里头容易埋坑,就是一但立法跟上,可能会对过去应用进行责任追讨,律师事务所自然喜闻乐见,摩拳擦掌。其二是如果不用以图生图方式,其实主流的两大 AI 工具 MidJourney 与 Stable Diffusion 都有较明显的风格化问题,容易一眼看穿出身,形成我们设计圈常说的素材感很强,模板感很强的感受。比如我看目前朋友圈的大量分享确实一眼就知道 AI 出品,有时候两眼。
看多了,新鲜感就会消退,而且就实际商业应用而言,受不受欢迎不好说。免费做应该还行,甲方如果付费了应该并不希望你用 AI 弄一套东西给他。
但 AI 进步实在太快,以上说法也许很快不能作数,因此文章有效期 7 天。今天的话题并非要进一步评价 AI 绘画,而是跟大家讲述它的发展史。从历史角度,还原一下妖怪的诞生。
AI绘画 教程:
超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。
阅读文章 >
超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J
阅读文章 >
故事,要从 70 年代说起。
一、伪人工智能 这段历史,几乎每个人都会从一位英国艺术家说起,此人名为科恩(Harold Cohen)。
生于 1928 年的科恩在 2016 年去世,一生致力于研究如何采用计算机程序创作艺术。
科恩早年就学艺术,随后再学编程,文理兼修,打通任督二脉,也就是艺术与科技的屏障。
因此,1972 年在他手上诞生了“亚伦”(AARON)程序。
这个程序被视为 AI 绘画始祖,个人认为相对牵强。
当然我所谓的牵强要看怎么定义“AI 绘画”,就目前 AI 绘画的形态来看,“亚伦”更像打印机。
因为“亚伦”创作的真的是画,画在纸上那种(或者画布)。由于“亚伦”至今不开源,而且科恩已经去世,其作画原理细节目前是个迷。
但按理解,就是通过编写好的程序指导机械化操作,跟如今工厂的机械臂差不多。
Mac 电脑首次集成可以处理图像及文字的软件,绘画由此真正进入可视化的电脑时代。世界上第一款图文设计软件也由苹果公司开发,随着 Mac 电脑一起发布,名为“MacPAInt”,(“麦克油漆”)。当年的产品发布会上乔布斯还为大家现场展示过这款软件绘制的浮世绘图像,创作者是美国女平面设计师苏珊·卡雷(Susan Kare)
这其实也可属于 AI 绘画历史的一部分,就是生产工具的升级。当时而言,对绘画界的震慑威力也不小,大家也很恐慌,很焦虑。传统画家都说糟糕了,老子要失业。再然后,默默学习,默默适应,默默发展,默默变成自然。
历史就是这么有趣。
二、闷声干大事 Mac 之后,科技分别在计算机+互联网领域奔跑。那时候,我们对科技进步感知其实还不够明显。
但从乔布斯 2007 年推出 iPhone 手机后大家就明显感觉科技发展“提速”了,此后惊喜不断,高潮迭起,一环扣一环,大家应接不暇。其中,就有不少人在默默耕耘人工智能。
于是乎,重要的拐点发生在 2012 年。
这一年谷歌两位 AI 大神带领团队做了个试验,耗资 100 万美元,1000 台电脑,16000 个 CPU,用时 3 天,基于 Youtube 平台 1000 万个猫脸图片,用深度学习模型程序生成了一个模糊的猫脸。两位大神分别是华裔人工智能科学家吴恩达跟美国计算机科学家杰夫·迪恩(Jeff Dean)。试验中生成的猫脸像被揍过一样,如果不说明,一眼还不容易看出来,但它的诞生注定要写进历史。
因为这其实才是 AI 绘画真正意义上的起点。
这里要用通俗的概念科普下,什么是“深度学习模型”。简单说来就是需要向这个“模型”大量“投喂”外部标注好的训练数据,然后让它根据输入的预期效果进行反复调整与匹配进行输出。这样说吧,蒸汽机刚发明的时候,按燃料热值产出效率才 3%,“深度学习模型”的产生效率可能只有它的百万分之一,所以超贵。
但不管如何,猫脸的诞生让大家备受鼓励,各路人工智能领域大神开始一路狂飙,闷声干大事。很快时间就去到 2014 年,加拿大蒙特利尔大学有个爷们提出了“生成对抗网络”算法进行 AI 绘画,简称“GAN”。
GAN 的原理是它拥有两个深度神经网络模型,一个叫生成器(Generator)一个叫判别器(Discriminator)。
为了方便理解,可以做个比喻,生成器就像乙方,负责做图,判别器就像甲方,负责说不行。每次乙方做完一张图出来甲方就说不行,要改,乙方改完出来甲方还说不行,继续改。如此循环上万次(很短时间内发生),直到双方筋疲力尽,甲方决定妥协,乙方也准备不要尾款算了,然后就输出一个最终结果。坦白说,GAN 的输出效果已经让人惊艳,一度成为 AI 绘画的主流方向。但缺点是非常费硬件(显卡),出图过程经常直接黑屏,而且它对局部图像的理解能力差,很难局部修改,图片分辨率也较低。
到了 2015 年,谷歌推出过一个叫“深梦”(Deep Dream)的图像生成工具,这些画作全部都像有一堆疙瘩,生成痕迹明显。但也打出 AI 绘画旗号,而且还专门办了个展,其实比较出戏,这里不多聊。
同在这一年,一种重要的人工智能技术也诞生,就是“智能图像识别”。
意思是计算机可以运用语言去描述一张图片,就像父母拿着卡片问 2 岁宝宝这啥,宝宝会答:大象。
这个技术当然更先进些,比如你给一张高启强的图片它识别,它会给出一系列标签,比如:男性、黄种人、中年、老大之类。
这跟 AI 绘画有什么关系呢?
就是有研究人员开始根据技术反过来想,如果给它文字标签描述,是否也可以生成图片呢?结果模型真的能根据文字生成一堆小图片,如此一来,这个逻辑成为 AI 绘画的新研究方向。
三、潘多拉魔盒 2015 年之后其实还有很多这方面不同的尝试与研究,但普遍属于上述技术的不同优化。
真正让 AI 迎来质的飞跃是在 2021 年,网红人工智能公司 OpenAI 推出了 AI 绘画产品 DALL· E。
这个版本的出图水平还很一般,但已经完全是根据文字提示来进行作画了。
2022 年,DALL·E-2 版本推出,水平大幅提升,AI 绘画就是这个阶段开始获得广泛关注的。而且更关键的是 OpenAI 公司开源了 DALL· E 的深度学习模型 CLIP(Contrastive Language-Image Pre-TrAIning)。
CLIP 模型训练 AI 同时做两件事情,其一是理解自然语言,其二是视觉分析,然后通过不停训练来优化两者对应程度,比如将马桶跟马桶图像完全对应上,如果马桶对了茅坑就得再来,最后形成“咒语绘画”这样的局面。
问题来了,过去的 AI 绘画模型其实也有干这件事情,为什么 CLIP 如此优秀?明显,就是 CLIP 做训练的量远远超过过去任何模型,据说大致是 40 亿个以上的“文本-图像”数据,而且跟过去其它模型不同的是这些数据是免费的,并非人力成本天价的标注图像,因为鸡贼的 CLIP 采用的居然是广泛散布在互联网上的各种图片,这些互联网图片一般都带有各种文本描述,比如标题、注释,甚至标签等等,这些天然资源就是最佳的训练样本,果然是思路一变,市场一片,随后就很快出现不少超级厉害的应用工具。
比如 2022 年 2 月,SomnAI 等几个开源社区做了一款 AI 绘图生成器——Disco diffusion,2022 年 3 月份,由 Disco diffusion 的核心人员参与建设的 AI 生成器 Midjouney 也正式发布,Disco diffusion 跟 Midjouney 问世后都在不停进步。
2022 年 8 月时候,美国游戏设计师杰森(Jason Allen) 就凭借一幅 AI 绘画作品《太空歌剧院》(Théâtre D'opéra Spatial),斩获美国科罗拉多州博览会美术竞赛一等奖。
当杰森公布这是一张由 Midjouney 创作的 AI 绘画作品时,引发了大部分参赛者的愤怒,也引发新一轮针对人工智能技术的讨论。再随后就到了 2023 年,相关发生的事情大家历历在目,此处不必重复。
四、未来的展望 AI 从绘画进一步拓展到不同领域可以说是必然发生的了。
但关于展望,我感觉应该尽量积极点,就是 AI 技术将被多国联合驯化,结合到经济发展中产业化,创造出更多岗位,如同 15 年前不敢想象人居然可以全职就对着手机说话,并且优秀的还赚不少钱。
直播与短视频产业带动了很多故事策划、文案创作、视频拍摄、特效制作、服装道具、音视频硬件、场地租赁等等商业需求,也盘活了过去很多传统行业。
这些事情是抖音 1.0 无法想象的,他们也许最初只想做一款成功的娱乐应用,而 AI 最初也只是想尽量干出人类能干的事情,更关键的是,AI 只能知道过去人类想过什么,永远不知道人类接下来会想什么。
欢迎关注作者的微信公众号「 设计史 太浓」:
-
AI绘画基础科普!一次性帮你搞懂所有技术名词
UI交互 2023-04-15近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使...近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。
对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使用和技巧,又面对着诸如 Lora、ControlNet、Dall-E 等复杂术语,不知道从何入手。通过收集资料,本文将从以下四个方面介绍目前最流行的 AI 绘图工具和模型训练方法,力求用通俗易懂的语言帮助大家理清术语背后的真实含义。
一、文生图算法简介 text to image 技术,又称为文生图,是一种基于自然语言描述生成图像的技术。其历史可以追溯到 20 世纪 80 年代。
随着深度学习技术的发展,特别是卷积神经网络 CNN 和循环神经网络 RNN 的出现,text to image 技术开始采用神经网络模型进行训练和生成。
GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被应用于 text to image 任务的算法。
随着计算机硬件和算法的不断进步,越来越多的新算法涌现出来,例如 Stable Diffusion 和 Dall-E 等。相较于传统算法如 GAN 和 VAE,这些新算法在生成高分辨率、高质量的图片方面表现更加卓越。
Stable Diffusion(稳定扩散)是基于 DPM(Diffusion Probabistic models)的改进版本,DPM 是一种概率建模方法,旨在使用初始状态的噪声扰动来生成图像。模型会首先生成一张初始状态的噪声图像,然后通过逐步的运算过程逐渐消除噪声,将图像转换为目标图像。这也是我们在进行 Stable Diffusion 绘图时,首先需要确定噪声采样方式和采样步长的原因。
Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作发布的一种人工智能技术,其源代码在 2022 年 8 月公开于 GitHub,任何人都可以拷贝和使用。该模型是使用包含 15 亿个图像文本数据的公开数据集 Line 5B 进行训练的。训练时使用了 256 个 Nvidia A100 GPU,在亚马逊网络服务上花费了 150,000 个 GPU 小时,总成本为 60 万美元。
Dall-E 是 OpenAI 公司于 2021 年 1 月发布的一种基于 Transformer 和 GAN 的文本到图像生成算法,使用了大规模的预训练技术和自监督学习方法。Dall-E 的训练集包括了超过 250 万张图像和文本描述的组合。该算法的灵感来源于 2020 年 7 月 OpenAI 发布的 GPT-3 模型,后者是一种可以生成具有语言能力的人工智能技术。Dall-E 则是将 GPT-3 的思想应用于图像生成,从而实现了文本到图像的转换。
2022 年 2 月,OpenAI 发布了 Dall-E2。相比于上一版本,Dall-E2 生成的图像质量更高,而且可以生成更加复杂和多样化的图像。Dall-E2 的训练集包括了超过 1 亿张图像和文本描述的组合,比 Dall-E 的训练集大 40 倍。
当前 Dall-E 算法虽未开源,但已经有人尝试创建 Dall-E 的开源实现。比如,Crayon 前身为 Doy Mini,于 2022 年在 Hugging Face 的平台上发布。
大部分的绘图工具都是基于 Stable Diffusion、Dall-E 相关的或类似或衍生的算法开发的,尤其是已经开源的稳定扩散算法。
以下是与此相关的几个常见、广泛使用的 AI 绘图工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。
二、AI 绘图工具介绍 接下来给大家介绍市面上常见的 AI 绘图工具:
1. Midjourney
Midjourney 是一个由 Leap Motion 的联合创始人 David Holz 创立的独立研究室,他们以相同的名称制作了一个人工智能程序,也就是我们常听到的 Midjourney 绘图软件。该软件于 2022 年 7 月 12 日进入公开测试阶段,基于 Stable Diffusion 算法开发,但尚未开源,只能通过 Discord 的机器人指令进行操作。
https://www.midjourney.com/app/
Discord 是一个在线聊天和语音交流平台,类似于我们常用的 QQ 聊天工具。Midjourney 官方提供了一个 discord 机器人,用户可以在 discord 中添加该机器人,进入指定的服务器进行绘图操作。具体方法是,登录 discord,在添加了 Midjourney Bot 的服务器中,在聊天框里输入“image”,然后输入绘图指令即可。
Midjourney 是一个学习成本极低、操作简单的绘图工具,生成的图片非常有艺术感,因此以艺术风格闻名。只需输入任意关键词即可获得相对满意的绘图结果。绘图者只需要专注于设计好玩实用的绘图指令(Prompt),而无需花费太多精力在软件操作本身上。但是,Midjourney 的使用需要全程科学上网,并且使用成本相对较高。由于软件未开源,生成的图片可能无法满足用户的特定需求,只能通过寻找合适的关键词配合图像编辑软件来实现。
超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J
阅读文章 >
2. Stable Diffusion
Stable Diffusion 是一种算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同发布,于 2022 年 8 月开源。因此,用户可以下载 Stable Diffusion 的源代码,并通过各种方式在自己的电脑上进行本地部署。
将 Stable Diffusion 分解后,有以下几个结构和模型。在训练时,输入的训练图像首先通过编码器模块进行编码,以进行降维,例如从 512*512 降到 64*64,这将大大加快训练速度。输入的文本长度是不固定的,通过文本编码器(通常是 clip 模型)将其转换为固定长度的向量以进行计算。这两者结合后,输入到 UNET 网络进行训练。训练后,图像通过解码器解码后恢复为 512*512 的图像。
超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。
阅读文章 >
生成图像时候只需要带入一个初始化了的噪声图像和文本,二者组合后输入 UNET 网络进行去噪,最后通过 Dncoder 还原成清晰的图像。
大家可能会认为安装和部署 Stable Diffusion 很困难,因为需要安装 Python 运行环境和一些依赖库,以及对 Python 语言有一定的编程经验。但是,有一些一键式的安装包可以帮助你快速搭建 stable diffusion 的环境。这些安装包包含了 Python 运行环境和相关的依赖库和代码。只需要下载安装包,然后根据指示进行几个简单的步骤,即可完成 Stable Diffusion 的安装和部署。
最受欢迎的工具包是 GitHub 上 automatic 1111 用户创建的 Stable Diffusion Web UI。它是基于 radio 库的浏览器界面交互程序。具体的安装视频可以在各大知识平台都可以搜到,这里就不展开了。
一键式安装包(包含 Python 运行环境,还集成了 Stable Diffusion 的相关依赖库和代码) https://github.com/AUTOMATIC1111/stable-diffusion-webui
目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 内容和艺术家关键词,相当于封印了很多能力。
Stable Diffusion Web UI 只是运行 Stable Diffusion 的可视化界面,就如一辆车子缺乏发动机,我们还需要从 Stability AI 的 Hugging Face 官网下载 Stable Diffusion 模型,才能开始运行 Stable Diffusion 绘图。
本地运行 Stable Diffusion 需要较高的显卡配置,建议使用显存大于 8G 的 N 卡显卡。如果配置不够但还想体验一下,Stable Diffusion 有线上版本 DreamStudio,只是需要付费使用。新用户可以获得 200 个点数,每次标准生成将消耗一个点数。
https://beta.dreamstudio.ai/generate?from=%2Fdream
3. Dall-E
Dall-E 是 OpenAI 旗下的一款 AI 绘图工具软件,与 ChatGPT 同属于一个公司。最新版本 Dall-E 2 于 2022 年 2 月发布。Dall-E 可以在线使用,Dall-E 会根据这些文字描述生成一张或多张图片,并显示在屏幕上。用户可以上传自己的图片,标记图像中的区域进行进一步的编辑和修改。Dall-E 还会根据已有图像的视觉元素对图像进行二次加工,延展图片边界。
https://labs.openai.com/
用户在注册的第一个月可以获得 50 个免费积分,每月可以获得 15 个积分,每张图片花费 1 个积分。如果需要更多的图像,用户需要付费。当前,Dall-E 算法并未公开源代码。
4. NovelAI
Nova AI 是由美国特拉华州的 Anlatan 公司开发的云端软件。最初,该软件于 2021 年 6 月 15 日推出测试版,其主要功能是辅助故事写作。之后,在 2022 年 10 月 3 日,Nova AI 推出了图像生成服务,由于其生成的二次元图片效果出众,因此它被广泛认为是一个二次元图像生成网站。
https://novelai.net/
Nova AI 的图像生成模型是使用 8 个 Nvidia A100 GPU 在基于 Damburu 的约 530 万张图片的数据集上训练而得到的,其底层算法也是基于 stable diffusion 模型微调而来的。
使用 Nova AI 的方法很简单,只需登录官方网站,进入图像生成界面,输入关键字,即可生成图像。此外,由于 Novel AI 曾经发生过代码泄露,因此也可以下载 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。
5. Disco Diffusion
Disco Diffusion 是最早流行起来的 AI 绘图工具,发布于 Google Clab 平台。它的源代码完全公开且免费使用,可通过浏览器运行而无需对电脑进行配置。Disco Diffusion 基于 Diffusion 扩散模型开发,是在 Stable Diffusion 发布之前最受欢迎的扩散模型之一。然而,它在绘制人物方面表现不佳,且生成一张图片需要十几二十分钟的时间,因此在 Stable Diffusion 发布后逐渐失去了市场热度。
6. 其他工具
NiJiJourney 是一个专门针对二次元绘画的 AI 绘画软件,由 Spellbrush 和 Midjourney 共同推出。使用方法与 Midjourney 基本相同,用户可以在 Discord 上输入相应的绘画指令进行绘画。目前 NiJiJourney 处于内测阶段,绘画是免费的,但是版权问题尚未明确表态。预计在正式公测时,付费用户可以获得商用权利,与 Midjourney 类似。
Waifu Diffusion 是一种基于扩散模型的 AI 绘图模型,它的早期版本 1.4 在动漫领域的绘图效果与 NovelAI 非常相似。有些人甚至认为 Waifu Diffusion 是在 NovelAI 模型的基础上进行微调得到的,但 Waifu Diffusion 团队表示他们的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并结果。我们可以从 Hugging Face 上下载 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。
除此以外还有很多类似 Midjourney 的绘图工具,几乎都是基于 Stable Diffsion 或者类似算法进行开发。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些还具备图像修改、图像延展等功能,尽管这些软件还处于测试阶段,需要申请才能使用,但它们生成的图片质量不输 Midjourney,因此常被拿来与 Midjourney 进行对比。
① Leonardo AI
https://leonardo.ai/
② BlueWillow AI
https://www.bluewillow.ai/
③ Playground AI
https://playgroundai.com/
④ Dreamlike
https://dreamlike.art/
⑤ NightCafe.studio
https://nightcafe.studio/
三、模型训练相关名词 AI 大模型,也被称为基础模型(Foundation Model),是指将大量数据导入具有数亿甚至万亿级参数的模型中,通过人工智能算法进行训练。Stable Diffusion、NovelAI、Dall-E 等模型都属于大模型。这类大模型普遍的特点是参数多,训练时间长,具备泛化性、通用性、实用性,适用于各种场景的绘图。
这类 AI 大模型也存在一个普遍的缺点,就是无法满足对细节控制或特定人物特定绘图风格的绘图需要。即便掌握了算法知识,训练一个好的 AI 绘图模型也需要强大的计算资源,这些计算资源对于普通人来说过于昂贵。例如 Stable Diffusion 在亚马逊网络服务上使用 256 个 NVIDIA A100 GPU 进行训练,总共花费了 15 万个 GPU 小时,成本为 60 万美元。
于是,针对这些大模型的微调技术应运而生。为了达到绘制特定人物或特定绘图风格的需要,我们不需要重新训练大模型,只要提供几张图片和一张显卡,几个小时的时间就可以实现。也就是我们常听说的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它们都属于大模型的微调技术,可以在 Stable Diffusion Web UI 中进行训练后使用,感兴趣的话可以在 Civitai 进行下载。
1. Embedding
Text Coder 就像一本词典,输入文本后 Text Coder 能快速查找到符合要求的词向量,
那如果出现新的关键词,text coder 上找不到该怎么办?这就是 Embedding 算法要做的事情,它通过训练在 Text Coder 中找到与新的词特征、风格相同的词向量。例如这个麒麟训练后可以看作龙羊虎的组合。
Embedding 算法不改变大模型的基本结构,也不改变 text coder,所以就能达到微调模型的目的。对于风格的描述,一般需要较多的关键词。Embedding 对于复杂的词汇的调整结果并不太好,定义人物需要的关键词少,所以适用于对人物的训练。
② Hypernetwork
与 Embedding 不同,Hypernetwork 是作用在 UNET 网络上的,UNET 神经网络相当于一个函数,内部有非常多的参数,Hypernetwork 通过新建一个神经网络,称之为超网络。超网络的输出的结果是 UNET 网络的参数。超网络不像 UNET,它的参数少,所以训练速度比较快,因此 Hypernetwork 能达到以较小时间空间成本微调模型的目的。
Hypernetwork 会影响整个 UNET 的参数生成,理论上更适合风格的训练。Stable Diffusion Web UI 上也继承了 Embedding 和 Hypernetwork 的训练环境。
3. Dreambooth
Dreambooth 是 Google 在 2022 年 8 月提出的一种新的网络模型,它的强大之处在于能完整地保留你想要关键视觉特征。例如图中最左边的黄色闹钟上面一个醒目的黄色的。采用 Dreambooth 生成的新图像可以准确还原这个图像最右边这个样子。这需要模型能够准确识别物体的细节。你只需提供 3- 5 张的图像和文本提示作为输入,就可以达到很好的效果。Dreambooth 适合人物训练,改版的 Dreambooth 方法 native train 适合于风格的训练。
Dreambooth 要求同时提供特征词加类别和类别文本图片信息带入模型进行训练,例如 a dog 和 a [V] dog。这样做的好处是既可以保留类别的原始信息,又可以学习到特征词加类别的新的信息。
4. LoRA
LoRA(Low-Rank Adaptation of large Language Models)是由微软研究员开发的一种用于微调大模型的技术。该技术建议冻结预训练模型的权重,并在每个 Transformer 块中注入可训练层,从而在保持大部分参数不变的情况下,调整局部的一些模型参数。由于不需要重新计算模型的权重参数的梯度,这大大减少了需要训练的计算量,并降低了 GPU 的内存要求。
使用 LoRA 模型进行微调可以为我们提供更自由、更便捷的微调模型的方式。例如,它使我们能够在基本模型的基础上进一步指定整体风格、指定人脸等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。
5. Controlnet
Controlnet 是当前备受瞩目的 AI 绘图算法之一。它是一种神经网络结构,通过添加额外的条件来控制基础扩散模型,从而实现对图像构图或人物姿势的精细控制。结合文生图的操作,它还能实现线稿转全彩图的功能。
Controlnet 的意义在于它不再需要通过大量的关键词来堆砌构图效果。即使使用大量关键词,生成的效果也难以令人满意。借助 Controlnet 可以在最开始就引导它往你需要的构图方向上走,从而实现更准确的图像生成。
四 、VAE 模型的作用 正如我们之前介绍的,Stable Diffusion 在训练时会有一个编码(Encoder)和解码(Dncoder)的过程,我们将编码和解码模型称为 VAE 模型。预训练的模型,如官网下载的 Stable Diffusion 模型,一般都是内置了训练好的 VAE 模型的,不用我们再额外挂载。但有些大模型并不内置 VAE 模型,或者 VAE 模型经过多次训练融合不能使用了,就需要额外下载,并在 Stable Diffusion Web UI 中添加设置。如果不添加,出图的色彩饱和度可能会出问题,发灰或变得不清晰。大家可以根据模型说明信息来确定是否要下载 VAE。
欢迎关注作者微信公众号: AI Design Center
-
如何做好产品全局导航?来看高手的深度分析!
UI交互 2023-04-15分析背景本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。更多导航干货:用一篇文章,完整梳理总结所有 iOS 导航模式编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计...分析背景
本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。
更多导航干货:
用一篇文章,完整梳理总结所有 iOS 导航模式 编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计师 Frank Rausch 结合 WWDC 的演讲和相关规范进行了详尽的整理,仅此一篇帮你梳理清楚 iOS 的全部导航模式,以下为正文: Frank Rausch 所创建的这个页面包含了目前 iO
阅读文章 >
一、全局导航的作用 1.1 帮助用户确认在系统中的位置
由于 B 端产品业务复杂、角色多样,页面层级结构往往比较多。这时候,清晰的 导航设计 能帮助用户认清“我在哪儿” ,避免迷路。
1.2 告诉用户这里有什么
B 端产品的系统架构通常通过导航结构来进行表现层上的划分,这时候,导航名称可以快速、直观地告诉用户该产品所包含的内容和层级。
1.3 告诉用户如何使用网站
清晰的导航就像一本用户使用指南,能够帮助用户规划行程,明确地提示用户从哪里开始,能进行哪些操作。
导航的作用如此之大,因此,作为一个 UX 设计师 ,知道如何为狭小的屏幕空间选择合理的导航布局以准确表达业务需求是很重要的。
二、全局导航布局定义 2.1 全局导航实例及总结
下图是几个典型平台类产品的主界面,现在我们来观察一下这几个界面的“一级菜单-二级菜单-三级菜单的位置”。注意:不要把页眉看成横向导航菜单。
其中,阿里云门户首页的一级菜单在上,二级菜单、三级菜单通过移入一级菜单出现,也可以看作在上;阿里云后台产品详情页一级菜单、二级菜单在左,内容页中还有页签作为内容页导航;易观数科后台一级菜单、二级菜单、三级菜单都在左边;神策数据后台一级菜单在上,二级菜单、三级菜单在左;网易首页的一级菜单、二级菜单都在上;百度首页只有一级菜单在上。
根据以上梳理思路,结合更多实例,可以总结出全局导航布局不外乎有以下几种:左-左-左、左-左-上、左-上-上、左-上-左、上-上-上、上-上-左、上-左-左、上-左-上。(这 8 种布局跟后面提到的 Jennifer Rose Kingsburg 的实验素材是吻合的)
2.2 全局导航布局极致提炼
上面的总结中提到的布局太多,且相邻布局间差异又不鲜明,好像选这个也可以选那个也可以。为了让设计师更快地做出选用决策,就需要进一步提炼上述的 8 种布局。如何做呢?这次提炼,我们只关注一级导航的位置,及一级导航与内容区域的位置关系。
基于此视角可看出:左-左-左的一级菜单在左,内容区域在右,左-左-上、左-上-上、左-上-左同理。上-上-上的一级菜单在上,内容区域在下,上-上-左、上-左-左、上-左-上同理。由此可将上述 8 种布局缩减为 2 种:上-下,左-右。
上-下结构营造的沉浸感强,但是导航容量小,如果横向导航较多时会出现横向滚动条,导致滚动不便。左-右结构的导航时刻在视野内,可以随时切走,沉浸感较弱,不过这种结构的纵向导航容量大,导航较多时上下滚动方便。由此,我们就可以根据产品功能结构的规格来选择是使用上-下还是左-右结构。
综上,以一级功能导航放在顶部还是放在左侧为套用切入点,设计师就可以根据产品业务形态和需求快速确定全局导航布局。
注意:以一级功能导航的位置为切入点设计,并不是不管二级菜单,而是先定下是使用上-下还是左-右布局,再继续做二级菜单的延展设计。
2.3 全局导航二级菜单放哪里
上面提炼后的两种布局是理想情况,实际产品应用中,特别是 B 端产品,功能复杂,菜单层级往往不只一级。因此,如果我们确定了一级菜单的位置,还需考虑二级及更深层级菜单的展示方式。
先来看二级菜单,该如何确定二级菜单的位置呢?Jennifer Rose Kingsburg 曾从操作时间、操作迟疑时间、错误移动次数、错误点击次数、喜好排名 5 个维度进行实验(他把 2.1 章节中提到的 8 种不同的全局导航布局,分别给 8 组用户使用,并得出数据),用以说明网页设计中应该如何设计导航体验更佳。
接下来我们引用 Jennifer Rose Kingsburg 在论文《A comparison of three-level menu navigation structures for web design》中的实验数据并做分析,看二级菜单放在什么位置,体验更好。
下图是 Jennifer Rose Kingsburg 的实验数据。
Jennifer Rose Kingsburg 实验数据
为了更直观地观察每种布局的用户体验满意程度,此篇文章已通过 10 分制将上述数据转化为分值(分值越高体验越好),见下图。
实验数据转化为分值
①一二三级导航都在左边
②一二级导航在左边,三级导航在右边顶部(评分较高,主要原因在于不易发生错误移动和错误点击)
③一级导航在左边,二三级导航在右边顶部(评分最高,主要原因在于菜单全部平铺,操作时间短)
④一级导航在左边,二级导航在右边顶部,三级导航在右边左侧
⑤一二三级导航都在顶部
⑥一二级导航在顶部,三级导航在下边左侧
⑦一级导航在顶部,二三级导航在下边左侧(评分较高,主要原因在于不易发生错误点击)
⑧一级导航在顶部,二级导航在下边左侧,三级导航在下边顶部
先看左-右结构,前四种布局中②③的平均分不相上下,单独看各个维度也是各有千秋。我们根据②③的二级导航的位置,可以将2.2章节中定义的左-右结构拓展为以下两种布局。
左-右结构布局拓展
同理,再看上下结构,后四种布局中⑦的平均分最高。我们根据⑦的二三级导航的位置,可以将2.2章节中定义的上-下结构拓展为以下布局。
上-下结构布局拓展
需要指出的是:三级导航以及更深层级导航可以看做是内容页内导航,是用③中的横向页签,还是用④中的树状菜单,需要根据内容页导航数量决定,二者可以同时存在于一套规范中。
2.4 全局导航布局定义
依据一级导航、次级导航的位置及用户体验满意程度,此篇文章定义了 3 种可供套用的导航布局,见下图。
小知识
在 2.1章节中提到“不要把页眉看成横向导航菜单”。为什么这么提醒呢?
大家可以看下 2.1章节中神策数据的界面,它顶部导航承载的是功能导航,是真正关乎业务流程和用户任务流程闭环的功能导航,此时,我们就称它为顶部导航。而阿里云后台产品详情页界面,顶部导航承载的是一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,这种情况下,我们不称它为顶部导航,我们称其为页眉。
上面说了,页眉承载着一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,是不大部分网站设计不可或缺的一部分。那如何判断加不加页眉呢?
有一些特殊场景,比如:登录、注册、查看购物车、支付等场景下,用户需要沉浸式操作,不希望被干扰,所以不需要导航。但对于这些页面来说,仍需要站点名称可以回到主页,也需要一些实用工具可以提高留存率,这种情况下,就需要一个页眉(全站导航)来承载站点名称、实用工具。
页眉还是导航
如果是独立页眉,高度比较小,避免挤压下方内容空间,如果将页眉跟导航融合,页眉高度就是导航的高度。因此,在 2.4章节中做上-下结构布局拓展定义的时候,没有在顶部另起一行,而是将页眉内容融入到了顶部的一级导航里。
三、套用规则定义 3.1 全局导航原子布局优缺点分析及适用场景
3.2 全局导航拓展布局优缺点分析及适用场景
小知识
实际工作中,如果设计师能充分了解信息型产品和功能型产品的特点,有助于我们做出最佳决策。
3.3 后话
经过详细地分析和推导,此篇文章定义了适合兆日 B 端产品套用的 3 种全局导航布局(2 种原子布局)。各位观者也可以根据自己公司产品的业务形态,从用户体验角度出发,定义合理的全局导航布局,便于随时套用,从而节省前期分析的时间。
欢迎关注团队微信公众号:兆日 UCD
-
如何做好产品全局导航?来看高手的深度分析!
UI交互 2023-04-15分析背景本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。更多导航干货:用一篇文章,完整梳理总结所有 iOS 导航模式编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计...分析背景
本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。
更多导航干货:
用一篇文章,完整梳理总结所有 iOS 导航模式 编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计师 Frank Rausch 结合 WWDC 的演讲和相关规范进行了详尽的整理,仅此一篇帮你梳理清楚 iOS 的全部导航模式,以下为正文: Frank Rausch 所创建的这个页面包含了目前 iO
阅读文章 >
一、全局导航的作用 1.1 帮助用户确认在系统中的位置
由于 B 端产品业务复杂、角色多样,页面层级结构往往比较多。这时候,清晰的 导航设计 能帮助用户认清“我在哪儿” ,避免迷路。
1.2 告诉用户这里有什么
B 端产品的系统架构通常通过导航结构来进行表现层上的划分,这时候,导航名称可以快速、直观地告诉用户该产品所包含的内容和层级。
1.3 告诉用户如何使用网站
清晰的导航就像一本用户使用指南,能够帮助用户规划行程,明确地提示用户从哪里开始,能进行哪些操作。
导航的作用如此之大,因此,作为一个 UX 设计师 ,知道如何为狭小的屏幕空间选择合理的导航布局以准确表达业务需求是很重要的。
二、全局导航布局定义 2.1 全局导航实例及总结
下图是几个典型平台类产品的主界面,现在我们来观察一下这几个界面的“一级菜单-二级菜单-三级菜单的位置”。注意:不要把页眉看成横向导航菜单。
其中,阿里云门户首页的一级菜单在上,二级菜单、三级菜单通过移入一级菜单出现,也可以看作在上;阿里云后台产品详情页一级菜单、二级菜单在左,内容页中还有页签作为内容页导航;易观数科后台一级菜单、二级菜单、三级菜单都在左边;神策数据后台一级菜单在上,二级菜单、三级菜单在左;网易首页的一级菜单、二级菜单都在上;百度首页只有一级菜单在上。
根据以上梳理思路,结合更多实例,可以总结出全局导航布局不外乎有以下几种:左-左-左、左-左-上、左-上-上、左-上-左、上-上-上、上-上-左、上-左-左、上-左-上。(这 8 种布局跟后面提到的 Jennifer Rose Kingsburg 的实验素材是吻合的)
2.2 全局导航布局极致提炼
上面的总结中提到的布局太多,且相邻布局间差异又不鲜明,好像选这个也可以选那个也可以。为了让设计师更快地做出选用决策,就需要进一步提炼上述的 8 种布局。如何做呢?这次提炼,我们只关注一级导航的位置,及一级导航与内容区域的位置关系。
基于此视角可看出:左-左-左的一级菜单在左,内容区域在右,左-左-上、左-上-上、左-上-左同理。上-上-上的一级菜单在上,内容区域在下,上-上-左、上-左-左、上-左-上同理。由此可将上述 8 种布局缩减为 2 种:上-下,左-右。
上-下结构营造的沉浸感强,但是导航容量小,如果横向导航较多时会出现横向滚动条,导致滚动不便。左-右结构的导航时刻在视野内,可以随时切走,沉浸感较弱,不过这种结构的纵向导航容量大,导航较多时上下滚动方便。由此,我们就可以根据产品功能结构的规格来选择是使用上-下还是左-右结构。
综上,以一级功能导航放在顶部还是放在左侧为套用切入点,设计师就可以根据产品业务形态和需求快速确定全局导航布局。
注意:以一级功能导航的位置为切入点设计,并不是不管二级菜单,而是先定下是使用上-下还是左-右布局,再继续做二级菜单的延展设计。
2.3 全局导航二级菜单放哪里
上面提炼后的两种布局是理想情况,实际产品应用中,特别是 B 端产品,功能复杂,菜单层级往往不只一级。因此,如果我们确定了一级菜单的位置,还需考虑二级及更深层级菜单的展示方式。
先来看二级菜单,该如何确定二级菜单的位置呢?Jennifer Rose Kingsburg 曾从操作时间、操作迟疑时间、错误移动次数、错误点击次数、喜好排名 5 个维度进行实验(他把 2.1 章节中提到的 8 种不同的全局导航布局,分别给 8 组用户使用,并得出数据),用以说明网页设计中应该如何设计导航体验更佳。
接下来我们引用 Jennifer Rose Kingsburg 在论文《A comparison of three-level menu navigation structures for web design》中的实验数据并做分析,看二级菜单放在什么位置,体验更好。
下图是 Jennifer Rose Kingsburg 的实验数据。
Jennifer Rose Kingsburg 实验数据
为了更直观地观察每种布局的用户体验满意程度,此篇文章已通过 10 分制将上述数据转化为分值(分值越高体验越好),见下图。
实验数据转化为分值
①一二三级导航都在左边
②一二级导航在左边,三级导航在右边顶部(评分较高,主要原因在于不易发生错误移动和错误点击)
③一级导航在左边,二三级导航在右边顶部(评分最高,主要原因在于菜单全部平铺,操作时间短)
④一级导航在左边,二级导航在右边顶部,三级导航在右边左侧
⑤一二三级导航都在顶部
⑥一二级导航在顶部,三级导航在下边左侧
⑦一级导航在顶部,二三级导航在下边左侧(评分较高,主要原因在于不易发生错误点击)
⑧一级导航在顶部,二级导航在下边左侧,三级导航在下边顶部
先看左-右结构,前四种布局中②③的平均分不相上下,单独看各个维度也是各有千秋。我们根据②③的二级导航的位置,可以将2.2章节中定义的左-右结构拓展为以下两种布局。
左-右结构布局拓展
同理,再看上下结构,后四种布局中⑦的平均分最高。我们根据⑦的二三级导航的位置,可以将2.2章节中定义的上-下结构拓展为以下布局。
上-下结构布局拓展
需要指出的是:三级导航以及更深层级导航可以看做是内容页内导航,是用③中的横向页签,还是用④中的树状菜单,需要根据内容页导航数量决定,二者可以同时存在于一套规范中。
2.4 全局导航布局定义
依据一级导航、次级导航的位置及用户体验满意程度,此篇文章定义了 3 种可供套用的导航布局,见下图。
小知识
在 2.1章节中提到“不要把页眉看成横向导航菜单”。为什么这么提醒呢?
大家可以看下 2.1章节中神策数据的界面,它顶部导航承载的是功能导航,是真正关乎业务流程和用户任务流程闭环的功能导航,此时,我们就称它为顶部导航。而阿里云后台产品详情页界面,顶部导航承载的是一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,这种情况下,我们不称它为顶部导航,我们称其为页眉。
上面说了,页眉承载着一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,是不大部分网站设计不可或缺的一部分。那如何判断加不加页眉呢?
有一些特殊场景,比如:登录、注册、查看购物车、支付等场景下,用户需要沉浸式操作,不希望被干扰,所以不需要导航。但对于这些页面来说,仍需要站点名称可以回到主页,也需要一些实用工具可以提高留存率,这种情况下,就需要一个页眉(全站导航)来承载站点名称、实用工具。
页眉还是导航
如果是独立页眉,高度比较小,避免挤压下方内容空间,如果将页眉跟导航融合,页眉高度就是导航的高度。因此,在 2.4章节中做上-下结构布局拓展定义的时候,没有在顶部另起一行,而是将页眉内容融入到了顶部的一级导航里。
三、套用规则定义 3.1 全局导航原子布局优缺点分析及适用场景
3.2 全局导航拓展布局优缺点分析及适用场景
小知识
实际工作中,如果设计师能充分了解信息型产品和功能型产品的特点,有助于我们做出最佳决策。
3.3 后话
经过详细地分析和推导,此篇文章定义了适合兆日 B 端产品套用的 3 种全局导航布局(2 种原子布局)。各位观者也可以根据自己公司产品的业务形态,从用户体验角度出发,定义合理的全局导航布局,便于随时套用,从而节省前期分析的时间。
欢迎关注团队微信公众号:兆日 UCD
-
AI绘画基础科普!一次性帮你搞懂所有技术名词
UI交互 2023-04-15近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使...近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。
对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使用和技巧,又面对着诸如 Lora、ControlNet、Dall-E 等复杂术语,不知道从何入手。通过收集资料,本文将从以下四个方面介绍目前最流行的 AI 绘图工具和模型训练方法,力求用通俗易懂的语言帮助大家理清术语背后的真实含义。
一、文生图算法简介 text to image 技术,又称为文生图,是一种基于自然语言描述生成图像的技术。其历史可以追溯到 20 世纪 80 年代。
随着深度学习技术的发展,特别是卷积神经网络 CNN 和循环神经网络 RNN 的出现,text to image 技术开始采用神经网络模型进行训练和生成。
GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被应用于 text to image 任务的算法。
随着计算机硬件和算法的不断进步,越来越多的新算法涌现出来,例如 Stable Diffusion 和 Dall-E 等。相较于传统算法如 GAN 和 VAE,这些新算法在生成高分辨率、高质量的图片方面表现更加卓越。
Stable Diffusion(稳定扩散)是基于 DPM(Diffusion Probabistic models)的改进版本,DPM 是一种概率建模方法,旨在使用初始状态的噪声扰动来生成图像。模型会首先生成一张初始状态的噪声图像,然后通过逐步的运算过程逐渐消除噪声,将图像转换为目标图像。这也是我们在进行 Stable Diffusion 绘图时,首先需要确定噪声采样方式和采样步长的原因。
Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作发布的一种人工智能技术,其源代码在 2022 年 8 月公开于 GitHub,任何人都可以拷贝和使用。该模型是使用包含 15 亿个图像文本数据的公开数据集 Line 5B 进行训练的。训练时使用了 256 个 Nvidia A100 GPU,在亚马逊网络服务上花费了 150,000 个 GPU 小时,总成本为 60 万美元。
Dall-E 是 OpenAI 公司于 2021 年 1 月发布的一种基于 Transformer 和 GAN 的文本到图像生成算法,使用了大规模的预训练技术和自监督学习方法。Dall-E 的训练集包括了超过 250 万张图像和文本描述的组合。该算法的灵感来源于 2020 年 7 月 OpenAI 发布的 GPT-3 模型,后者是一种可以生成具有语言能力的人工智能技术。Dall-E 则是将 GPT-3 的思想应用于图像生成,从而实现了文本到图像的转换。
2022 年 2 月,OpenAI 发布了 Dall-E2。相比于上一版本,Dall-E2 生成的图像质量更高,而且可以生成更加复杂和多样化的图像。Dall-E2 的训练集包括了超过 1 亿张图像和文本描述的组合,比 Dall-E 的训练集大 40 倍。
当前 Dall-E 算法虽未开源,但已经有人尝试创建 Dall-E 的开源实现。比如,Crayon 前身为 Doy Mini,于 2022 年在 Hugging Face 的平台上发布。
大部分的绘图工具都是基于 Stable Diffusion、Dall-E 相关的或类似或衍生的算法开发的,尤其是已经开源的稳定扩散算法。
以下是与此相关的几个常见、广泛使用的 AI 绘图工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。
二、AI 绘图工具介绍 接下来给大家介绍市面上常见的 AI 绘图工具:
1. Midjourney
Midjourney 是一个由 Leap Motion 的联合创始人 David Holz 创立的独立研究室,他们以相同的名称制作了一个人工智能程序,也就是我们常听到的 Midjourney 绘图软件。该软件于 2022 年 7 月 12 日进入公开测试阶段,基于 Stable Diffusion 算法开发,但尚未开源,只能通过 Discord 的机器人指令进行操作。
https://www.midjourney.com/app/
Discord 是一个在线聊天和语音交流平台,类似于我们常用的 QQ 聊天工具。Midjourney 官方提供了一个 discord 机器人,用户可以在 discord 中添加该机器人,进入指定的服务器进行绘图操作。具体方法是,登录 discord,在添加了 Midjourney Bot 的服务器中,在聊天框里输入“image”,然后输入绘图指令即可。
Midjourney 是一个学习成本极低、操作简单的绘图工具,生成的图片非常有艺术感,因此以艺术风格闻名。只需输入任意关键词即可获得相对满意的绘图结果。绘图者只需要专注于设计好玩实用的绘图指令(Prompt),而无需花费太多精力在软件操作本身上。但是,Midjourney 的使用需要全程科学上网,并且使用成本相对较高。由于软件未开源,生成的图片可能无法满足用户的特定需求,只能通过寻找合适的关键词配合图像编辑软件来实现。
超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J
阅读文章 >
2. Stable Diffusion
Stable Diffusion 是一种算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同发布,于 2022 年 8 月开源。因此,用户可以下载 Stable Diffusion 的源代码,并通过各种方式在自己的电脑上进行本地部署。
将 Stable Diffusion 分解后,有以下几个结构和模型。在训练时,输入的训练图像首先通过编码器模块进行编码,以进行降维,例如从 512*512 降到 64*64,这将大大加快训练速度。输入的文本长度是不固定的,通过文本编码器(通常是 clip 模型)将其转换为固定长度的向量以进行计算。这两者结合后,输入到 UNET 网络进行训练。训练后,图像通过解码器解码后恢复为 512*512 的图像。
超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。
阅读文章 >
生成图像时候只需要带入一个初始化了的噪声图像和文本,二者组合后输入 UNET 网络进行去噪,最后通过 Dncoder 还原成清晰的图像。
大家可能会认为安装和部署 Stable Diffusion 很困难,因为需要安装 Python 运行环境和一些依赖库,以及对 Python 语言有一定的编程经验。但是,有一些一键式的安装包可以帮助你快速搭建 stable diffusion 的环境。这些安装包包含了 Python 运行环境和相关的依赖库和代码。只需要下载安装包,然后根据指示进行几个简单的步骤,即可完成 Stable Diffusion 的安装和部署。
最受欢迎的工具包是 GitHub 上 automatic 1111 用户创建的 Stable Diffusion Web UI。它是基于 radio 库的浏览器界面交互程序。具体的安装视频可以在各大知识平台都可以搜到,这里就不展开了。
一键式安装包(包含 Python 运行环境,还集成了 Stable Diffusion 的相关依赖库和代码) https://github.com/AUTOMATIC1111/stable-diffusion-webui
目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 内容和艺术家关键词,相当于封印了很多能力。
Stable Diffusion Web UI 只是运行 Stable Diffusion 的可视化界面,就如一辆车子缺乏发动机,我们还需要从 Stability AI 的 Hugging Face 官网下载 Stable Diffusion 模型,才能开始运行 Stable Diffusion 绘图。
本地运行 Stable Diffusion 需要较高的显卡配置,建议使用显存大于 8G 的 N 卡显卡。如果配置不够但还想体验一下,Stable Diffusion 有线上版本 DreamStudio,只是需要付费使用。新用户可以获得 200 个点数,每次标准生成将消耗一个点数。
https://beta.dreamstudio.ai/generate?from=%2Fdream
3. Dall-E
Dall-E 是 OpenAI 旗下的一款 AI 绘图工具软件,与 ChatGPT 同属于一个公司。最新版本 Dall-E 2 于 2022 年 2 月发布。Dall-E 可以在线使用,Dall-E 会根据这些文字描述生成一张或多张图片,并显示在屏幕上。用户可以上传自己的图片,标记图像中的区域进行进一步的编辑和修改。Dall-E 还会根据已有图像的视觉元素对图像进行二次加工,延展图片边界。
https://labs.openai.com/
用户在注册的第一个月可以获得 50 个免费积分,每月可以获得 15 个积分,每张图片花费 1 个积分。如果需要更多的图像,用户需要付费。当前,Dall-E 算法并未公开源代码。
4. NovelAI
Nova AI 是由美国特拉华州的 Anlatan 公司开发的云端软件。最初,该软件于 2021 年 6 月 15 日推出测试版,其主要功能是辅助故事写作。之后,在 2022 年 10 月 3 日,Nova AI 推出了图像生成服务,由于其生成的二次元图片效果出众,因此它被广泛认为是一个二次元图像生成网站。
https://novelai.net/
Nova AI 的图像生成模型是使用 8 个 Nvidia A100 GPU 在基于 Damburu 的约 530 万张图片的数据集上训练而得到的,其底层算法也是基于 stable diffusion 模型微调而来的。
使用 Nova AI 的方法很简单,只需登录官方网站,进入图像生成界面,输入关键字,即可生成图像。此外,由于 Novel AI 曾经发生过代码泄露,因此也可以下载 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。
5. Disco Diffusion
Disco Diffusion 是最早流行起来的 AI 绘图工具,发布于 Google Clab 平台。它的源代码完全公开且免费使用,可通过浏览器运行而无需对电脑进行配置。Disco Diffusion 基于 Diffusion 扩散模型开发,是在 Stable Diffusion 发布之前最受欢迎的扩散模型之一。然而,它在绘制人物方面表现不佳,且生成一张图片需要十几二十分钟的时间,因此在 Stable Diffusion 发布后逐渐失去了市场热度。
6. 其他工具
NiJiJourney 是一个专门针对二次元绘画的 AI 绘画软件,由 Spellbrush 和 Midjourney 共同推出。使用方法与 Midjourney 基本相同,用户可以在 Discord 上输入相应的绘画指令进行绘画。目前 NiJiJourney 处于内测阶段,绘画是免费的,但是版权问题尚未明确表态。预计在正式公测时,付费用户可以获得商用权利,与 Midjourney 类似。
Waifu Diffusion 是一种基于扩散模型的 AI 绘图模型,它的早期版本 1.4 在动漫领域的绘图效果与 NovelAI 非常相似。有些人甚至认为 Waifu Diffusion 是在 NovelAI 模型的基础上进行微调得到的,但 Waifu Diffusion 团队表示他们的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并结果。我们可以从 Hugging Face 上下载 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。
除此以外还有很多类似 Midjourney 的绘图工具,几乎都是基于 Stable Diffsion 或者类似算法进行开发。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些还具备图像修改、图像延展等功能,尽管这些软件还处于测试阶段,需要申请才能使用,但它们生成的图片质量不输 Midjourney,因此常被拿来与 Midjourney 进行对比。
① Leonardo AI
https://leonardo.ai/
② BlueWillow AI
https://www.bluewillow.ai/
③ Playground AI
https://playgroundai.com/
④ Dreamlike
https://dreamlike.art/
⑤ NightCafe.studio
https://nightcafe.studio/
三、模型训练相关名词 AI 大模型,也被称为基础模型(Foundation Model),是指将大量数据导入具有数亿甚至万亿级参数的模型中,通过人工智能算法进行训练。Stable Diffusion、NovelAI、Dall-E 等模型都属于大模型。这类大模型普遍的特点是参数多,训练时间长,具备泛化性、通用性、实用性,适用于各种场景的绘图。
这类 AI 大模型也存在一个普遍的缺点,就是无法满足对细节控制或特定人物特定绘图风格的绘图需要。即便掌握了算法知识,训练一个好的 AI 绘图模型也需要强大的计算资源,这些计算资源对于普通人来说过于昂贵。例如 Stable Diffusion 在亚马逊网络服务上使用 256 个 NVIDIA A100 GPU 进行训练,总共花费了 15 万个 GPU 小时,成本为 60 万美元。
于是,针对这些大模型的微调技术应运而生。为了达到绘制特定人物或特定绘图风格的需要,我们不需要重新训练大模型,只要提供几张图片和一张显卡,几个小时的时间就可以实现。也就是我们常听说的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它们都属于大模型的微调技术,可以在 Stable Diffusion Web UI 中进行训练后使用,感兴趣的话可以在 Civitai 进行下载。
1. Embedding
Text Coder 就像一本词典,输入文本后 Text Coder 能快速查找到符合要求的词向量,
那如果出现新的关键词,text coder 上找不到该怎么办?这就是 Embedding 算法要做的事情,它通过训练在 Text Coder 中找到与新的词特征、风格相同的词向量。例如这个麒麟训练后可以看作龙羊虎的组合。
Embedding 算法不改变大模型的基本结构,也不改变 text coder,所以就能达到微调模型的目的。对于风格的描述,一般需要较多的关键词。Embedding 对于复杂的词汇的调整结果并不太好,定义人物需要的关键词少,所以适用于对人物的训练。
② Hypernetwork
与 Embedding 不同,Hypernetwork 是作用在 UNET 网络上的,UNET 神经网络相当于一个函数,内部有非常多的参数,Hypernetwork 通过新建一个神经网络,称之为超网络。超网络的输出的结果是 UNET 网络的参数。超网络不像 UNET,它的参数少,所以训练速度比较快,因此 Hypernetwork 能达到以较小时间空间成本微调模型的目的。
Hypernetwork 会影响整个 UNET 的参数生成,理论上更适合风格的训练。Stable Diffusion Web UI 上也继承了 Embedding 和 Hypernetwork 的训练环境。
3. Dreambooth
Dreambooth 是 Google 在 2022 年 8 月提出的一种新的网络模型,它的强大之处在于能完整地保留你想要关键视觉特征。例如图中最左边的黄色闹钟上面一个醒目的黄色的。采用 Dreambooth 生成的新图像可以准确还原这个图像最右边这个样子。这需要模型能够准确识别物体的细节。你只需提供 3- 5 张的图像和文本提示作为输入,就可以达到很好的效果。Dreambooth 适合人物训练,改版的 Dreambooth 方法 native train 适合于风格的训练。
Dreambooth 要求同时提供特征词加类别和类别文本图片信息带入模型进行训练,例如 a dog 和 a [V] dog。这样做的好处是既可以保留类别的原始信息,又可以学习到特征词加类别的新的信息。
4. LoRA
LoRA(Low-Rank Adaptation of large Language Models)是由微软研究员开发的一种用于微调大模型的技术。该技术建议冻结预训练模型的权重,并在每个 Transformer 块中注入可训练层,从而在保持大部分参数不变的情况下,调整局部的一些模型参数。由于不需要重新计算模型的权重参数的梯度,这大大减少了需要训练的计算量,并降低了 GPU 的内存要求。
使用 LoRA 模型进行微调可以为我们提供更自由、更便捷的微调模型的方式。例如,它使我们能够在基本模型的基础上进一步指定整体风格、指定人脸等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。
5. Controlnet
Controlnet 是当前备受瞩目的 AI 绘图算法之一。它是一种神经网络结构,通过添加额外的条件来控制基础扩散模型,从而实现对图像构图或人物姿势的精细控制。结合文生图的操作,它还能实现线稿转全彩图的功能。
Controlnet 的意义在于它不再需要通过大量的关键词来堆砌构图效果。即使使用大量关键词,生成的效果也难以令人满意。借助 Controlnet 可以在最开始就引导它往你需要的构图方向上走,从而实现更准确的图像生成。
四 、VAE 模型的作用 正如我们之前介绍的,Stable Diffusion 在训练时会有一个编码(Encoder)和解码(Dncoder)的过程,我们将编码和解码模型称为 VAE 模型。预训练的模型,如官网下载的 Stable Diffusion 模型,一般都是内置了训练好的 VAE 模型的,不用我们再额外挂载。但有些大模型并不内置 VAE 模型,或者 VAE 模型经过多次训练融合不能使用了,就需要额外下载,并在 Stable Diffusion Web UI 中添加设置。如果不添加,出图的色彩饱和度可能会出问题,发灰或变得不清晰。大家可以根据模型说明信息来确定是否要下载 VAE。
欢迎关注作者微信公众号: AI Design Center
-
6000字干货!超全面的AI绘画基础知识扫盲
UI交互 2023-04-14最近大火的 AI 绘画,并不是一个全新的事物,早在 2015 年就已经出现了基于 GAN (生成对抗网络) 生成图像的 AI 应用实例,但因为技术的不成熟,并没有得到广泛的推广。这两年因为显卡算力的增长和扩散模型的出现,AI 绘画迎来了一波热潮,大有要把设计师干失业的凶猛势头,无论是网上的社区还是微信社群,都弥漫...最近大火的 AI 绘画,并不是一个全新的事物,早在 2015 年就已经出现了基于 GAN (生成对抗网络) 生成图像的 AI 应用实例,但因为技术的不成熟,并没有得到广泛的推广。
这两年因为显卡算力的增长和扩散模型的出现,AI 绘画迎来了一波热潮,大有要把设计师干失业的凶猛势头,无论是网上的社区还是微信社群,都弥漫着一股恐慌的气氛。
对于 UI 设计师来说,这种恐慌是无谓的、盲目的、幼稚的,但我光这么说是没用的,因为恐惧来源未知。就像之前一篇分享的评论中,很多夸大 AI 作用的 设计师 “既不懂项目,也不懂 AI 是什么”……
所以,项目的分享前面已经做了很多,这篇分享主要用白话就和大家做一次基础的扫盲:
AI 绘画到底是什么 目前有哪些 AI 绘画工具 它们的生成方式和过程 相关的限制和阻力 可以应用的具体场景 一、什么是AI绘画 AI 绘画是一种利用人工智能技术(其实就是机器学习算法)创作视觉作品的方法。
AI 绘画的应用,是部分科学家和工程师,先搭建了可以学习图像来自我完善和强化的技术,接着提供给它成百上千万的图像,让它通这些养分快速成长,理解不同的具体事物、光影、风格是什么。然后,当我们输入相关的文本信息指令时,它就会通过这些文本内容去匹配自己已经理解和记录的图形要素,并将它们绘制出来。
说是 AI,但它的本质依然是一种算法,一种对规律的记忆和复现,是一种数学化的总结和组合,并不是抽象的艺术思考和创作,距离多数人想象中真正的人工智能其实还差了很远。
目前市面上涌现出了一大批 AI 绘画工具,这里我介绍其中最有代表性的几个:Stable diffusion、Midjourney、Adobe Firefly。
1. Stable Diffusion
Stable Diffusion (简称 SD) 是一个可以本地部署的 AI 程序,因为其开源的属性,让大多数不想花钱且动手能力强的用户可以快速搭建并生成任意数量的结果。也能依据自己的需求和画风进行针对性的大模型训练,还可以扩展相关的插件和模型,包括对 VAE、Lora、Control net 等,包含了极多的设置选项和上限。
超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。
阅读文章 >
2. Midjourney
Midjourney (简称 MJ) 是市面上商业化最成功的在线 AI 绘画服务商,是一款运行在 Discord 上的程序(类似小程序),只需要进行几步简单的注册和操作就能登录使用。是目前影响力最大,使用人数最多的 AI 绘画工具。
超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J
阅读文章 >
2022 年有人拿着 MJ 生成的画参加科罗拉多州立博物馆举办的「Fine Art Exhibition」美术展,并获得了一等奖,就是下面这张:
虽然不知道这个奖项有多大的炒作成份,但是实打实的让 MJ 迎来了热度的大爆发,用户量在一个月之间增长了 4 倍。也由此可见 MJ 在对艺术绘画风格的生成上有着不俗的能力。当然 MJ 也有偏向二次元的 Niji 模型偏向真实摄影的 testp、V5 模型。
3. Adobe Firefly
Adobe Firefly 是 Adobe 自己开发的 AI 工具,是这几个 AI 生成工具中最年轻的,前不久刚刚推出 beta 测试。作为一家以软件工具作为核心业务的企业,Firefly 自带很深的生产力属性,除了在生成过程中提供表单式的选项外,还支持对生成内容进行图层分层,并导入到自家软件。
AIGC新神器!Adobe Firefly内测版全方位评测(附内测申请流程) 哈喽大家好,我是包大!
阅读文章 >
虽然 Firefly 目前才刚刚起步,但以 AI 绘画这种需要大量资源投喂的方向来说,Adobe 有得天独厚的优势,未来直接接入 PS、AI、AE 等工具是必然的,也是可以最贴合平面类设计工作的工具。
除了它们三个以外,还有别的很多绘图工具,不管是正在快速迭代的,还是开发中的,如 Dalle、NovelAI、NightCafe Creator、Tiamat、Imagen、Parti 等。
AI绘画哪家强?Midjourney、文心一格等 6 大工具出图效果大比拼 大家好,这里是和你们一起探索 AI 绘画的花生~ 3 月份以来 AI 绘画领域又有了不小的变化,Midjourney 更新了 V5 版本、Stable Diffusion 推出了 Clipdrop Reimagine;微软 Bing 也推出了 Image Create (图像生成)功能
阅读文章 >
作为 AI 绘画的起步阶段,目前我们不能完全断言哪个工具最后会成为效果最好,最适合我们的。但可以肯定的是,整个行业都在快速成长,现状不能代表未来的格局。具体会发展到什么地步,就要拭目以待了。
二、AI绘画的基本逻辑 就像把大象装进冰箱只需要三步,所有 AI 绘画基本上都分为这几个步骤:
1. 模型的预训练
步骤中这个潜在空间的映射过程,就是模型预训练的结果,也就是说你训练模型时是如何做文本到图片的对应的,那么生成时候就会大概率做同样的对应。
并且这种对应,是在模型训练完成就难以再修改的。因为模型训练的数据量和计算力需求极为庞大,所以除非大公司有庞大的资源进行模型训练,否则如果是使用现有的 AI 大模型,个人想要进行微调几乎是难以实现的。
举个例子来说,现有的 MJ 因为缺少字母数字字形的训练,所以生成的所有图形几乎都与具体的字形无关,哪怕你给它指定了图片中需要数字「0」,它也做不到,因为它脑瓜里没有这样的东西。
就像我让你画一个王鹫,你连这动物见都没见过,怎么可能画得出来。模型的作用就像你对世界的认识,没有输入和学习,就没有认识。
2. 图片生成器
市面上有好几个不同的方案来实现图片的最终生成,例如 MJ、Firefly 主要采用的 GAN(生成对抗网络),以及 SD 使用的扩散算法,还有 VAE (变分自动解码器)等等。
不过不管它们具体使用的方法是什么,其过程大致抽象如下:生成器首先生成一个低分辨率的图片,每一层神经网络会在此基础上添加不同层级的特征和细节,就好像 AI 慢慢地把一副模糊的,低细节的画,画得更清晰、细节更丰富。
在这个过程中,我们不能够进行人为干预,你想要更改其中的某些细节,就需要重新修改 Prompt (描述词),让 AI 重新生成,并且还无法保证你的此次修改能否起效。因为我们无法理解 AI 是如何拆解你的 Prompt 并对应到图片上去的,对使用者来说,这就是一个「黑箱」。
3. 具体的图像生成
每个 AI 绘画工具都会有一个关键字输入框,通过对应语法输入相关的指令和描述,来生成图像。而每个工具对文本的理解和模型不同,即使用一样的描述生成的东西也不一样。根据前面预训练的说明,不同模型擅长的和画不了的东西也不一样。
所以,下面我们就用一组基本一样的关键词,在不同的工具中生成对应的结果:
这里要强调,想要获得越理想的结果,描述就要越准确,而且画面结果越复杂,需要描述的字数也就越多。需要氛围感越强,情绪的描写也就需要越生动。想象下那些描写生动的文学作品,能让我们脑子里有画面,语言的描述方式就越细致、越特别。
比如搭配 GPT-4 生成的 MJ 描述文本:
当 AI 帮助我们完成一幅画的时候,有很多元素它可以进行自定的补全,比如画个人,你可以不指定他有牙齿,但只要你打入 open smile 的话 AI 自然会根据正常情况去画出牙齿。
但我们进入到非常规的情况,比如 UI 设计,每一个 UI 界面都有它自己的独特性 —— 字段不同。也就是出现在这个画布中的所有内容信息不一致,这个是绝对不可能依托脑补实现的。
那么,即使有团队开发了非常强大的文生图 AI 绘图工具,也一样需要把画面中出现的字段全部输入一遍,即使再简单的字段,你也需要描述它在画面中出现的特征、权重、交互和属性。
你们可以想象下如果用文本方式去指定下面这些页面应该怎么完成:
三、AI绘画的局限性 AI 绘画再强大,能生成再多让你惊叹的画面,它也有自身的局限性。就像前面说的,它不是真正的 AI,仅仅只是 “一种对规律的记忆和复现,是一种数学化的总结和组合”。
1. 依赖模型
之前说过,AI 生成的图像是什么风格,极大程度依赖于它是如何接受训练的,市面上有很多专门针对特定风格的模型,都是这一特性之下出现的产物。
但这也并不能保证市面上有的模型就能百分之一百满足你的工作需要,有些工作方向符合条件的团队,可以自己训练模型,想要模型的效果好,就需要投入很多的人力去进行手工的筛选和打标,且最终的模型效果很难保证。
而 UI 这个领域目前没有这样模型,AI 也并没有建立对 UI 中不同元素的认识和理解,也就是让它生成 UI 界面是随机抄下这些元素进行组合来但根本不清楚自己在做什么。
2. 随机生成
生成器在生成低细节图片时,基本上就确定了构图,但这种确定是随机的确定,也就是说你通常很难指定图片中的某样东西,在图片中的哪个具体的位置。这种随机性会消耗设计师大量的精力来进行 rerolling,直到 AI 恰好随到了一个比较符合你预期的构图。
但这样一来,就太依赖 AI 的即兴发挥了,而在 UI 设计中,一个界面从上到下应该包含哪些模块,每个模块里包含哪些字段是指定的非常具体的,和它的随机性是完全背离的。
3. 指向性差
之前所举的 MJ 无法生成具体的数字/字母,就是一个指向性差的例子。
MJ 虽然非常擅长画人物,画山水,画建筑,但它非常不擅长画抽象的人造物。除了字形之外,它还不能在已有的 IP 形象基础上进行姿势、风格、3D 化变体;对图标、logo 的描绘也比较差 (几乎不可用);对元素进行秩序排列也比较难做好。它太喜欢细节了,这些对人类来说更简单的东西反而画不明白。
尤其是在 UI 的领域中,我们往往对元素的制定有精确到像素的需要,已这种方式去要求 AI 显然是本末倒置的,只能增加更多的工作量。
4. 难以微调
AI 绘画的每一副图片都要重新生成一次,比如在 MJ 中,你随机无数次生成出接近自己想要的东西,但是要你要微调里面的内容时,却会发现做不到,每次调整就是生成一张新的图。
而在 SD 中,虽然可以使用图片局部编辑,但是那个编辑仅仅是根据周边环境对这个区域重新生成,能不能获得你要的结果还是得碰运气。这在 UI 界面输出的流程中是不可接受的,因为我们会在确定的设计稿中替换元素位置,或者用指定元素替代现有元素。
手动操作特别容易,但是 AI 的生成模式和我们日常的手动设计过程是完完全全不同的,所以它没办法支持,最后还是得靠我们自己去动手完成。
四、AI绘画的使用场景 AI 插画确实可以在一些设计的领域起到革命性的作用,但目前多数是加快这些工作的效率和质量,而不是直接替代,下面罗列一些具体的应用场景。
1. 插画
首先肯定是插画的领域,这个是目前 AI 做的最好也最成熟的方向。不管是游戏 CG 还是概念插画、运营插画,它都可以很好的完成。
当然,基于前面说到的那些缺点,商用环境下是不会直接使用生成的结果上线的,而是要在这个基础上使用 PS 进行修改,或直接以此作为灵感重绘。
所以,要求稍高的商业插画即使引入 AI 依旧需要专业的插画师来操作,只是对他们的要求多了一项使用 AI 的技能。而最底层的插画工人确实失业风险已经近在眼前。
2. 游戏 UI
游戏 UI 也是插画的一部分,只是绘制的范围更小。过去游戏 UI 绘制界面中的图标是非常痛苦吃力的,一个简单的宝箱可能就要画很多版本,绞尽脑汁。而 AI 绘画就可以快速生成大量的版本,这些图直接拿来修改或临摹一遍,大大缩短了出图时间。
这也是 AI 插画目前影响最大的地方,因为游戏项目组是非常严格控制成本的,而 AI 带来的效率提升,让个人生成力飞跃,那么自然不再需要那么多的游戏 UI。只要团队跑通对应的流程,就可以立马开始裁员,精简团队的名额,这在各个头部大厂已经实际发生了。
3. 平面包装
平面包装方向也是一个重点依赖抽象图形的领域,对精确度的要求并不高,所以往往有一个模糊的方向和概念,设计师是乐于接受随机生成结果和样式的。
根据目前的实际产出案例质量,包装设计除了外部轮廓,可以大量依赖 AI 来生成需要喷刷的视觉图案。但要记住图案仅仅是包装设计的一小部分,它的结果依旧需要专业的设计师来审视、筛选和修改(需要铺开和添加指定文字),所以会成为一个非常好的工具而不是直接取代包装设计师。
4. 服装设计/摄影
在服装领域,设计和摄影都不同程度受到 AI 影响。服装设计很多时候仰赖一些抽象的灵感和思路,而 AI 的随机性可以很好的提供给设计师灵感,但不管生成的图质量有多高,都需要专业的设计师根据成本、流行、材料、季节的关系对它进行调整,重新绘制和打版。
而在成衣环节,很多时候要拍摄模特图片是要花费很大成本和时间的,而将设计好的服装在模特身上“试穿”已经成为可以实现的功能。虽然目前还有很多缺陷,但可以遇见的是未来肯定会有专用的产品上线,对低端商拍和模特行业产生直接的影响。
5. 建筑/室内
还有就是因为 Controlnet 的应用,AI 插画可以生成更细腻、丰富的室内建筑、室内效果图了,往往产出的质量还不错,远超低端设计师的工作效果。
但是,光靠这种效果图能完成最终建筑或室内设计吗?想想也知道不可能,因为实际场景包含的各种限制、参数、需求是没办法有效反馈给 AI 让它解决的。所以这些效果图依旧只是飞机稿,为设计师提供灵感的工具。
但可以相见的是,如果 AI 生成效果图那么好,未来如果能结合 3D 模型(如 Sketchup)直接生成,而略过使用 3D 软件渲染的步骤,那么一方面出图的时间大大缩短,另一方面设计师和客户的沟通将变得无比高效。
之所以最后提那么多应用的场景,就是为了让大家明白一件事,AI 目前的能做的事情,仅仅是 —— 生成位图。
除了需求比较基础和低级的低端插画市场,商业项目直接使用 AI 生成结果上线,只会引发灾难性的后果。即使 Adobe 走的更快一点,提供了图层的区分,但也仅仅是不同层的位图而已,还是要设计师打开 PS/AI 做调整。
因为视觉图像仅仅是不同设计领域中的一个部分而已,是需要结合进工作流和考虑各种外部影响的,这些判断是需要专业设计师来完成的。
随着 AI 的发展,不同的设计领域都会引入 AI 绘图结合进设计流程,但说到底它只是一个工具,不可能包办整个项目都出发到落地的所有细节,因为这些关键的信息是在三次元中产生的,而项目又不是工业生产线,可以完全标准化运作。
搞清楚这些内容的想法,你就不会轻易被恐慌情绪牵着鼻子走,做一个无知且惶恐的局外人了。
结尾 如果后面有时间,我们也会在这个基础上进一步更新成系列新的教学,指导大家如何安装和使用 SD、MJ、Firefly,并输出对应的内容。
想要看到这些的话,就记得多分享、点赞、留言~
我们下篇再贱…
欢迎关注作者的微信公众号:「超人的电话亭」
-
如何做好外卖平台的搜索功能?我总结了四大原则
UI交互 2023-04-14前沿:当代年轻人的生活节奏越来越快,面对海量的美食资讯和推送,难免会不知所措,每到饭点都不知道吃什么。本文将深度剖析外卖平台的搜索功能,从中发现设计师为用户的吃饭选择困难症花费了多少心血,为广大设计师总结出极致的搜索体验的设计原则,进一步留住用户的心。更多搜索干货:从3个阶段,解析B端搜索功能设计引言 搜索作为...前沿:
当代年轻人的生活节奏越来越快,面对海量的美食资讯和推送,难免会不知所措,每到饭点都不知道吃什么。本文将深度剖析外卖平台的搜索功能,从中发现设计师为用户的吃饭选择困难症花费了多少心血,为广大设计师总结出极致的搜索体验的 设计原则 ,进一步留住用户的心。
更多搜索干货:
从3个阶段,解析B端搜索功能设计 引言 搜索作为最常用的功能,在产品设计中使用率高、应用面广。
阅读文章 >
一、搜索的意义 吃饭的时间是宝贵的,在有限的时间内快速找到自己的美食才能留住用户的心。虽然美食千千万万,但总有某一些特别想吃的。当用户有明确的搜索目标通过直接检索就可以找到自己想要的内容,所以一个好的搜索能减少用户大量时间,提升点餐效率。
面对没有目标的吃货,贴心的美食推荐能打开他们的新世界,利用好搜索功能的热词引导,不仅能满足消费需求,还能引导消费和创造消费。以标签形式展示外卖商家的权益信息会促进用户查看、下单,如此互惠互利的方式何乐而不为。
二、搜索的类型 搜索的类型主要包括搜索的样式和搜索的形式。首先,常见的搜索样式有图标卡片、搜索框、隐藏触发三大类。其次,移动端的搜索形式可归纳为全量搜索和定向搜索两类别。全量搜索就是根据关键词进行模糊搜索,而定向搜索就是在限定范围内搜索内容。
本次分析对象主要是美团、饿了么和大众点评,从搜索类型剖析发现它们存在某些共性和差异。第一,他们都采用了搜索框而非图标卡片入口。由此可见,他们觉得搜索功能十分重要,应该给予更大的面积来增加曝光,吸引用户操作。第二,美团和饿了么都采用全量搜索,对关键词进行模糊搜索,而大众点评则采用定向搜索,在限定城市范围内搜索结果。第三,饿了么和大众点评提供「扫一扫」的功能,方便用户通过商品二维码和条形码快速找到自己的菜品。第四,美团和饿了么都采用大色块搜索按钮引导用户操作。除此以外,美团还采用标签刺激用户搜索,激起用户兴趣,引导用户下单消费。综上,美食平台的搜索功能入口可以采用搜索框,并结合需要加入「扫一扫」、「引导标签」和「大色块搜索按钮」。
三、极致搜索的设计原则 一个体验良好的搜索功能需要考虑各种细节。从搜索前的引导、搜索中的文案输入、辅助搜索模块和搜索结果的分类等等。细细体验了三款产品的搜索流程并认真分析每个模块的特点,总结出以下 4 个设计原则。
1. 场景预热
在搜索前给用户提供人性化的推荐,帮助用户从毫无思绪的混沌中提供决策的方向。三大平台在用户引导都有自己的思考。首先,他们都充分利用搜索框进行热词引导,可以增加运营活动、商家权益和热门菜品的曝光,轮播闪烁来吸引用户的注意力。其次,饿了么还尝试利用人物 IP 进行对话交流,动态的对话信息比静态信息更能吸引用户,趣味性更强。
2. 贴心引导
我们身处信息时代,不怕获取不了信息,只怕需要花费大量时间在海量信息中寻找。因此,为提升搜索效率,三大平台都设置了多样的辅助搜索模块,如「历史搜索」、「搜索发现」、「搜索热榜」等。一方面,这能帮助用户通过关键词缩小搜索范围。另一方面,用户可以通过榜单来了解周边人的想法,还能意外获取到商家的消费权益。所以,关注细节的产品才能留住用户的心,细心的美食平台才能留住用户的胃。
3. 预期管理
为帮助用户提前获悉结果,避免无效搜索,三大平台都拥有「搜索联想」功能。首先,用户可以输入关键词就能获取商品、商家和推荐榜单等信息,能极大地减少不必要的操作和等待。其次,为刺激用户消费,还可以增加权益和优惠信息的曝光促进用户下单。此外,信息列表还进行了分类,能极大地缩小搜索范围,迫近用户预期。
4. 细致分类
平台会根据搜索关键词提供很多结果,为有效呈现多样结果,三大平台都进行了分类。这将助力用户更快确定要下单的商品。此外,用户还可以获取消费的榜单和笔记,这能帮助用户提前避雷。这么细腻的分类才能让用户吃得省心呀。
总结 一款优质的产品需要不断地打磨,这好比一道美食需要多道制作工序。因此,要想拥有舒心的搜索体验就需要从交互细节着手,从其他优质的产品中学习并融入其中。以上都是本人的一些拙见,欢迎大家留言交流~
-
实战案例解析!如何用4个步骤引导用户操作提高转化率?
UI交互 2023-04-14前段时间负责一个运营活动的改版工作,该活动的设定是通过设置目标奖励,提升用户的购买力。但是通过该模块的数据反馈发现,活动的用户参与度与购买转化率都不是很理想。结合数据与相关的用户调研发现,导致这个结果的原因主要概括为两点:活动曝光弱,用户不清楚活动内容,很少主动点击大部分用户购买力远远低于设置的目标,导致“心有余...前段时间负责一个运营活动的改版工作,该活动的设定是通过设置目标奖励,提升用户的购买力。但是通过该模块的数据反馈发现,活动的用户参与度与购买转化率都不是很理想。结合数据与相关的用户调研发现,导致这个结果的原因主要概括为两点:
活动曝光弱,用户不清楚活动内容,很少主动点击 大部分用户购买力远远低于设置的目标,导致“心有余而力不足” 更多 引导设计 干货:
新用户引导流程设计,需要做好这12个细节! 编者按:这篇文章出自资深 B 端 UI/UX 设计师 Taras Bakusevych ,他对于产品、视觉、体验设计上,都有深入的钻研,而这些钻研是实实在在的项目喂出来的实战经验。
阅读文章 >
以下是当前活动示意:
针对当前定位的问题,我们制定了本次活动改版的方向与目的,即
增加用户对活动的感知,引导用户参与活动 调整运营策略,促进用户完成阶段目标,提升购买力 对于第一点,我们比较容易解决,但是第二点中,如何调整当前的运营策略,我们跟运营人员进行了脑暴,最终基于成本与当前用户习惯为考量,我们制定的新的策略是“在第一个阶段目标之前,新增几个小目标,通过拆解目标的形式,提升用户对于阶段目标的完成度”,如图:
但是过多的阶段目标,容易让活动页面变得“枯燥”,为了提升用户在该页面的活跃度,我们需要将新增的“小目标”用其他交互形式承载,在经过了与业务部门的沟通脑暴后,最终我们选择了“抽奖”。
将“小目标”以任务的形式呈现,用户完成任务即获得抽奖机会。为了促进用户不断的完成任务,在设置抽奖规则的时候,我们做了一些设计。
第一,将抽奖概率设置成 100%,增加活动的吸引力;第二,设置阶梯抽奖,即用户完成的阶段越高,抽到的奖励就会越好,增加阶段的完成度。我们将这两点运用到了最终的抽奖页面中来。
确定了新的改版方向后,接下来就需要考虑用户在整个活动的操作路径了。理想情况下,我们希望用户的操作路径为:进入活动-购买商品-参与抽奖… 所以如何提高用户在理想的情况下进行交互,我们就需要对用户做一些操作上的引导,主要包括引导用户进入活动以及引导用户抽奖。如何引导?主要概括为四部分,即激励引导、场景引导、布局引导、操作引导。
接下来我们逐个进行拆解分析。
一、激励引导 通过走查,发现当前的活动入口是放在了首页 banner 的位置,虽然该区域整体曝光度比较高,但还是存在一些问题,主要包括以下两点:
由于 banner 自动轮播,导致活动不易被发现,且 banner 内容参差不齐,用户对于活动的感知较差; 目前活动入口仅仅展示活动标题,无法达到刺激用户点击的目的 针对当前问题,确定了交互优化的策略,即提升活动的曝光以及增加用户点击的欲望。通过与业务沟通得知,该活动属于长期存在的,需要建立活动在用户中的心智,所以最终选择用一个固定入口来承载,根据当前的首页布局,最终选择了异形胶囊图,通过视觉手法,在首页突出整个活动入口,同时在标题上加上活动利益点,从而达到刺激用户点击进入活动的目的。
二、场景引导 基于前面对于活动玩法的升级,我们加入了抽奖的玩法。除了用户主动进入活动页参与抽奖外,还需要考虑还有哪些场景可以引导用户进行抽奖?我们可以从抽奖的“源头”开始分析,用户获得抽奖机会的条件是完成一个阶段目标,而目标的设定是基于用户的“购买力”,对于电商产品而言,用户完成购买的节点在付款后的订单结果反馈。
所以基于这个场景来看,如果需要引导用户进行抽奖,我们可以在用户完成支付后进行。
当用户完成支付后,我们需要判断用户当前的累计购买金额是否达到抽奖节点,当满足条件时,我们就可以提示用户前去抽奖。这样做的好处在于,一方面我们可以提升用户对于活动的参与度,另一方面通过引导用户参与抽奖并获得奖励,激励用户向更高等级的奖励发起冲击,从而达到提升用户购买力的目的。
三、布局引导 当前用户参与抽奖,仅仅是通过用户下单后,如果完成对应抽奖设定的额度时,引导用户前去抽奖,但是这也存在一些问题:
当用户进入活动页时,如何感知抽奖,如何唤起抽奖页? 当弹窗引导用户抽奖时,如果用户关闭弹窗,用户如何再次前去抽奖? 所以针对当前的问题,我们需要在活动页增加抽奖入口的露出,一方面引导用户进入抽奖页,通过奖品的“诱惑”让用户完成任务抽奖;另一方面当用户有抽奖机会时,可以通过该入口进入抽奖页。那该如何在当前页面进行活动入口的布局呢?
起初打算用“狗皮膏药”的形式,该方式的好处在于不随页面滑动而变化,且通过一些文案与微动效的设计,使该入口在页面变得格外的显眼,但是经过分析发现,这种形式还是存在了一些问题。
该方式仅仅是展示了抽奖的入口,但是却没有体现用户有没有抽奖机会,以及怎样才能获得抽奖机会。所以该活动入口的布局既要引导用户抽奖,又要体现当前用户是否可抽奖,所以我们进行了调整,如图:
调整后的抽奖入口放在了活动页上方,根据用户“从上而下”的视觉动线,我们希望用户先关注与抽奖相关的“小目标”,当用户完成相关小目标后,发现离最终阶段奖励已经接近,促使用户完成“临门一脚;同时在抽奖入口的内容设计上,我们不仅告知用户当前是否可抽奖,同时告知用户获得抽奖机会的进度,希望通过这种方式来传达抽奖的活动规则。
四、操作引导 基于前面的分析,当前我们在活动页面增加了“抽奖”的入口与流程,但是不管是抽奖还是获得阶段奖励,用户都需要去提升购买额度,这也是该页面的主要操作,如何进一步的引导用户点击并转化,我们可以结合当前的奖励机制来分析。
当前我们将奖励拆解为两种,即抽奖奖励与阶段奖励。但是他们有一定的共性,即用户需要完成一定的下单量。如果把这个活动比作“马拉松”,那么各奖励的下单量就是沿途设定的距离路标。用户主要关注的是距离下一目标的路程,因为下一目标对于用户来说更好到达。所以基于此,我们可以在“操作按钮”上给与一定的操作引导,告知用户距离下次阶段奖励的“额度”,促使用户点击转化。
总结 以上,就是笔者根据工作中案例,分享的一篇关于如何引导用户操作的文章,经验有限,欢迎大家批评指正与交流。
-
实战案例解析!如何用4个步骤引导用户操作提高转化率?
UI交互 2023-04-14前段时间负责一个运营活动的改版工作,该活动的设定是通过设置目标奖励,提升用户的购买力。但是通过该模块的数据反馈发现,活动的用户参与度与购买转化率都不是很理想。结合数据与相关的用户调研发现,导致这个结果的原因主要概括为两点:活动曝光弱,用户不清楚活动内容,很少主动点击大部分用户购买力远远低于设置的目标,导致“心有余...前段时间负责一个运营活动的改版工作,该活动的设定是通过设置目标奖励,提升用户的购买力。但是通过该模块的数据反馈发现,活动的用户参与度与购买转化率都不是很理想。结合数据与相关的用户调研发现,导致这个结果的原因主要概括为两点:
活动曝光弱,用户不清楚活动内容,很少主动点击 大部分用户购买力远远低于设置的目标,导致“心有余而力不足” 更多 引导设计 干货:
新用户引导流程设计,需要做好这12个细节! 编者按:这篇文章出自资深 B 端 UI/UX 设计师 Taras Bakusevych ,他对于产品、视觉、体验设计上,都有深入的钻研,而这些钻研是实实在在的项目喂出来的实战经验。
阅读文章 >
以下是当前活动示意:
针对当前定位的问题,我们制定了本次活动改版的方向与目的,即
增加用户对活动的感知,引导用户参与活动 调整运营策略,促进用户完成阶段目标,提升购买力 对于第一点,我们比较容易解决,但是第二点中,如何调整当前的运营策略,我们跟运营人员进行了脑暴,最终基于成本与当前用户习惯为考量,我们制定的新的策略是“在第一个阶段目标之前,新增几个小目标,通过拆解目标的形式,提升用户对于阶段目标的完成度”,如图:
但是过多的阶段目标,容易让活动页面变得“枯燥”,为了提升用户在该页面的活跃度,我们需要将新增的“小目标”用其他交互形式承载,在经过了与业务部门的沟通脑暴后,最终我们选择了“抽奖”。
将“小目标”以任务的形式呈现,用户完成任务即获得抽奖机会。为了促进用户不断的完成任务,在设置抽奖规则的时候,我们做了一些设计。
第一,将抽奖概率设置成 100%,增加活动的吸引力;第二,设置阶梯抽奖,即用户完成的阶段越高,抽到的奖励就会越好,增加阶段的完成度。我们将这两点运用到了最终的抽奖页面中来。
确定了新的改版方向后,接下来就需要考虑用户在整个活动的操作路径了。理想情况下,我们希望用户的操作路径为:进入活动-购买商品-参与抽奖… 所以如何提高用户在理想的情况下进行交互,我们就需要对用户做一些操作上的引导,主要包括引导用户进入活动以及引导用户抽奖。如何引导?主要概括为四部分,即激励引导、场景引导、布局引导、操作引导。
接下来我们逐个进行拆解分析。
一、激励引导 通过走查,发现当前的活动入口是放在了首页 banner 的位置,虽然该区域整体曝光度比较高,但还是存在一些问题,主要包括以下两点:
由于 banner 自动轮播,导致活动不易被发现,且 banner 内容参差不齐,用户对于活动的感知较差; 目前活动入口仅仅展示活动标题,无法达到刺激用户点击的目的 针对当前问题,确定了交互优化的策略,即提升活动的曝光以及增加用户点击的欲望。通过与业务沟通得知,该活动属于长期存在的,需要建立活动在用户中的心智,所以最终选择用一个固定入口来承载,根据当前的首页布局,最终选择了异形胶囊图,通过视觉手法,在首页突出整个活动入口,同时在标题上加上活动利益点,从而达到刺激用户点击进入活动的目的。
二、场景引导 基于前面对于活动玩法的升级,我们加入了抽奖的玩法。除了用户主动进入活动页参与抽奖外,还需要考虑还有哪些场景可以引导用户进行抽奖?我们可以从抽奖的“源头”开始分析,用户获得抽奖机会的条件是完成一个阶段目标,而目标的设定是基于用户的“购买力”,对于电商产品而言,用户完成购买的节点在付款后的订单结果反馈。
所以基于这个场景来看,如果需要引导用户进行抽奖,我们可以在用户完成支付后进行。
当用户完成支付后,我们需要判断用户当前的累计购买金额是否达到抽奖节点,当满足条件时,我们就可以提示用户前去抽奖。这样做的好处在于,一方面我们可以提升用户对于活动的参与度,另一方面通过引导用户参与抽奖并获得奖励,激励用户向更高等级的奖励发起冲击,从而达到提升用户购买力的目的。
三、布局引导 当前用户参与抽奖,仅仅是通过用户下单后,如果完成对应抽奖设定的额度时,引导用户前去抽奖,但是这也存在一些问题:
当用户进入活动页时,如何感知抽奖,如何唤起抽奖页? 当弹窗引导用户抽奖时,如果用户关闭弹窗,用户如何再次前去抽奖? 所以针对当前的问题,我们需要在活动页增加抽奖入口的露出,一方面引导用户进入抽奖页,通过奖品的“诱惑”让用户完成任务抽奖;另一方面当用户有抽奖机会时,可以通过该入口进入抽奖页。那该如何在当前页面进行活动入口的布局呢?
起初打算用“狗皮膏药”的形式,该方式的好处在于不随页面滑动而变化,且通过一些文案与微动效的设计,使该入口在页面变得格外的显眼,但是经过分析发现,这种形式还是存在了一些问题。
该方式仅仅是展示了抽奖的入口,但是却没有体现用户有没有抽奖机会,以及怎样才能获得抽奖机会。所以该活动入口的布局既要引导用户抽奖,又要体现当前用户是否可抽奖,所以我们进行了调整,如图:
调整后的抽奖入口放在了活动页上方,根据用户“从上而下”的视觉动线,我们希望用户先关注与抽奖相关的“小目标”,当用户完成相关小目标后,发现离最终阶段奖励已经接近,促使用户完成“临门一脚;同时在抽奖入口的内容设计上,我们不仅告知用户当前是否可抽奖,同时告知用户获得抽奖机会的进度,希望通过这种方式来传达抽奖的活动规则。
四、操作引导 基于前面的分析,当前我们在活动页面增加了“抽奖”的入口与流程,但是不管是抽奖还是获得阶段奖励,用户都需要去提升购买额度,这也是该页面的主要操作,如何进一步的引导用户点击并转化,我们可以结合当前的奖励机制来分析。
当前我们将奖励拆解为两种,即抽奖奖励与阶段奖励。但是他们有一定的共性,即用户需要完成一定的下单量。如果把这个活动比作“马拉松”,那么各奖励的下单量就是沿途设定的距离路标。用户主要关注的是距离下一目标的路程,因为下一目标对于用户来说更好到达。所以基于此,我们可以在“操作按钮”上给与一定的操作引导,告知用户距离下次阶段奖励的“额度”,促使用户点击转化。
总结 以上,就是笔者根据工作中案例,分享的一篇关于如何引导用户操作的文章,经验有限,欢迎大家批评指正与交流。