• 用不了ChatGPT?快试试免费又强大的Anthropic Claude

    UI交互 2023-04-23
    大家好,这里是和你们一起探索 AI 的花生~前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~往期回...

    大家好,这里是和你们一起探索 AI 的花生~

    前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude ,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~

    往期回顾:

    设计师必看!6种ChatGPT实用使用指南 大家好,这里是和你们聊设计的花生~ 最近 ChatGPT 真的太火了,每天都会在网上刷到关于它的各种讨论,身边的同事也已经在用它处理一些文字工作,不知道大家有没有用起来呢?

    阅读文章 >

    一、Claude 简介 Anthropic 官方: https://www.anthropic.com/product

    Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研究的初创公司 Anthropic,由前 OpenAI 员工共同创立的。今年 3 月份 Anthropic 获得了谷歌 3 亿美元的投资,谷歌也因此获得其 10% 股份。

    Anthropic 官网

    据官方介绍,Claude 的核心模型经由训练,目标是变得有用、诚实和无害,因此相比其他的大语言模型,Claude 更少生成有害的内容。此外 Claude 更能理解和接受自然语言,和它对话无需复杂的技巧,可以轻松得到详细且易于理解的答案。它目前有两种型号 Claude-v1 和 Claude Instant:

    ① Claude-v1:功能强大的模型,可以处理复杂的对话、生成创意内容和详细说明。

    ② Claude Instant:更快更便宜的模型,可以处理偏随意的对话,对文本进行分析和摘要以及根据文档进行问答。

    与 ChatGPT 等大型语言模型一样,Claude 的应用场景非常广泛,信息搜索、内容总结摘要、写作协助、创意生成、问答、编程这些任务它都能轻松完成。目前 Claude 已经被应用在多个知名产品中,比如知识笔记工具 Notio AI 就是用 Claude 协助用户进行智能写作,国外问答社区 Quora 也在自己的 AI 聊天应用程序 Poe 中置入了 Claude。

    虽然是用英语语言训练的,但是 Claude 也能很好的理解中文等其他语言。为了测试 Claude 的中文理解及创作能力,我让它写了一首赞美设计师的诗。它的反应速度很快,几秒内就给出了内容,创作的质量也很不错,运用比喻修辞手法,还知道中英文结合使用,感觉比我厉害多了。使用过程中我发现如果聊天时间间隔太长,Claude 会自动断线,发消息它没有反应,需要刷新网页后才能重新连接上。

    又测试了一下它的信息检索能力,问题是“人像摄影中常用的手法”,Claude 也是非常快速地给出了对应的信息,不过在最后一条中出现了几个莫名其妙的符号。在我指出这个问题后,Claude 很快意识到了自己的错误并进行了修正。 随后我还让它将回答的内容翻译为英文,之后就能直接用在 AI 绘画中作为关键词参考了。

    我还问了一个测试 AI 反应的经典问题“2+3 应该等于几”,Claude 的回答非常稳。先是表明从数学角度来说 2+3 应该等于 5,还建议我可以用数指头方式向对方解释;在得知我朋友坚持己见后,建议我“以退为进”之后再慢慢解释,或者“暂时避开话题”,还不断强调友谊的重要性,可以看出“情商”还是挺高的。

    二、Claude 使用途径 Slack-Claude 官方网址: www.anthropic.com/claude-in-slack

    Claude 已经被置入一款团队协作沟通应用 Slack 中,目前可以免费使用。具体的注册使用方法如下:

    三、Claude 的不足 Claude 也依旧存在着很多和其他 AI 聊天机器人一样的缺陷,首先是它没有接入互联网,模型训练的内容来自于 2021 年春季以前,所以无法提供日期、天气、新闻等实时信息或据此提供进一步的判断。

    Claude 也一直在聊天的过程中提醒用户自身存在的局限性,比如在处理高度抽象的概念、类比、隐喻方面有困难;会产生“幻觉”,编造不存在的对象和内容;不擅长处理复杂数学和推理问题;无法根据过往的聊天信息更新自身内容或纠正目前存在的问题等,所以使用 Claude 时我们还是要保持谨慎,对重要的信息要进行再次验证。

    356*1597 的正确答案应该是 568532,Claude 给出的答案是错的,系统也在问答下方提示“Claude 不擅长处理数学问题”。

    在与 Claude 进行对话时,我们可以通过以下几点获取更好的使用体验:提问时描述具体,指向准确,必要时提供一定的背景或上下文信息; 给 Claude 一个“退路”,提问时说明如果它不知道可以用“我不知道”来回答,从而避免它编造虚假的内容 不用 Claude 处理它明显不擅长的内容,比如复杂的数学或者推理问题。 以上就是本期为大家推荐的免费 AI 聊天机器人 Anthropic Claude ,它的功能与 ChatGPT 不相上下,能很好地理解中文,比 ChatGPT 更加容易获取和使用,感兴趣的话可以按照文内的教程注册使用,记得要乘早哦,说不定之后就会收费了。

    喜欢本期推荐的话请大家多多点赞收藏进行支持,之后会继续为大家推荐更多 AI 干货知识 ~ 有关于本文或者设计的问题可以在评论区提出 ,我会第一时间回复。、

    参考资料:

    https://www.theverge.com/2023/3/14/23640056/anthropic-ai-chatbot-claude-google-launch Anthropic launches Claude, a chatbot to rival OpenAI’s ChatGPT | TechCrunch 推荐阅读:

    这5款工具,让设计师工作效率提升 200%!(十六) 大家好哇,这里是和你们聊设计的花生~ 今天为大家带来的是第 16 期的设计师效率工具推荐,本期的 5 款效率神器分别是: 效果惊人!

    阅读文章 >

    AI绘画必看!5个实用技巧让图像生成效率提升200% 大家好,这里是和你们一起探索 AI 绘画的花生~ 想必很多设计师小伙伴都在用 Midjourney 生成各种设计灵感或者素材,比如 3D 人物、UI 界面,渐变纹理、矢量插画等,而且只要我们掌握了其中的关键词或者公式,就能快速生成对应的效果,非常方便。

    阅读文章 >

  • 用不了ChatGPT?快试试免费又强大的Anthropic Claude

    UI交互 2023-04-23
    大家好,这里是和你们一起探索 AI 的花生~前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~往期回...

    大家好,这里是和你们一起探索 AI 的花生~

    前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude ,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~

    往期回顾:

    设计师必看!6种ChatGPT实用使用指南 大家好,这里是和你们聊设计的花生~ 最近 ChatGPT 真的太火了,每天都会在网上刷到关于它的各种讨论,身边的同事也已经在用它处理一些文字工作,不知道大家有没有用起来呢?

    阅读文章 >

    一、Claude 简介 Anthropic 官方: https://www.anthropic.com/product

    Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研究的初创公司 Anthropic,由前 OpenAI 员工共同创立的。今年 3 月份 Anthropic 获得了谷歌 3 亿美元的投资,谷歌也因此获得其 10% 股份。

    Anthropic 官网

    据官方介绍,Claude 的核心模型经由训练,目标是变得有用、诚实和无害,因此相比其他的大语言模型,Claude 更少生成有害的内容。此外 Claude 更能理解和接受自然语言,和它对话无需复杂的技巧,可以轻松得到详细且易于理解的答案。它目前有两种型号 Claude-v1 和 Claude Instant:

    ① Claude-v1:功能强大的模型,可以处理复杂的对话、生成创意内容和详细说明。

    ② Claude Instant:更快更便宜的模型,可以处理偏随意的对话,对文本进行分析和摘要以及根据文档进行问答。

    与 ChatGPT 等大型语言模型一样,Claude 的应用场景非常广泛,信息搜索、内容总结摘要、写作协助、创意生成、问答、编程这些任务它都能轻松完成。目前 Claude 已经被应用在多个知名产品中,比如知识笔记工具 Notio AI 就是用 Claude 协助用户进行智能写作,国外问答社区 Quora 也在自己的 AI 聊天应用程序 Poe 中置入了 Claude。

    虽然是用英语语言训练的,但是 Claude 也能很好的理解中文等其他语言。为了测试 Claude 的中文理解及创作能力,我让它写了一首赞美设计师的诗。它的反应速度很快,几秒内就给出了内容,创作的质量也很不错,运用比喻修辞手法,还知道中英文结合使用,感觉比我厉害多了。使用过程中我发现如果聊天时间间隔太长,Claude 会自动断线,发消息它没有反应,需要刷新网页后才能重新连接上。

    又测试了一下它的信息检索能力,问题是“人像摄影中常用的手法”,Claude 也是非常快速地给出了对应的信息,不过在最后一条中出现了几个莫名其妙的符号。在我指出这个问题后,Claude 很快意识到了自己的错误并进行了修正。 随后我还让它将回答的内容翻译为英文,之后就能直接用在 AI 绘画中作为关键词参考了。

    我还问了一个测试 AI 反应的经典问题“2+3 应该等于几”,Claude 的回答非常稳。先是表明从数学角度来说 2+3 应该等于 5,还建议我可以用数指头方式向对方解释;在得知我朋友坚持己见后,建议我“以退为进”之后再慢慢解释,或者“暂时避开话题”,还不断强调友谊的重要性,可以看出“情商”还是挺高的。

    二、Claude 使用途径 Slack-Claude 官方网址: www.anthropic.com/claude-in-slack

    Claude 已经被置入一款团队协作沟通应用 Slack 中,目前可以免费使用。具体的注册使用方法如下:

    三、Claude 的不足 Claude 也依旧存在着很多和其他 AI 聊天机器人一样的缺陷,首先是它没有接入互联网,模型训练的内容来自于 2021 年春季以前,所以无法提供日期、天气、新闻等实时信息或据此提供进一步的判断。

    Claude 也一直在聊天的过程中提醒用户自身存在的局限性,比如在处理高度抽象的概念、类比、隐喻方面有困难;会产生“幻觉”,编造不存在的对象和内容;不擅长处理复杂数学和推理问题;无法根据过往的聊天信息更新自身内容或纠正目前存在的问题等,所以使用 Claude 时我们还是要保持谨慎,对重要的信息要进行再次验证。

    356*1597 的正确答案应该是 568532,Claude 给出的答案是错的,系统也在问答下方提示“Claude 不擅长处理数学问题”。

    在与 Claude 进行对话时,我们可以通过以下几点获取更好的使用体验:提问时描述具体,指向准确,必要时提供一定的背景或上下文信息; 给 Claude 一个“退路”,提问时说明如果它不知道可以用“我不知道”来回答,从而避免它编造虚假的内容 不用 Claude 处理它明显不擅长的内容,比如复杂的数学或者推理问题。 以上就是本期为大家推荐的免费 AI 聊天机器人 Anthropic Claude ,它的功能与 ChatGPT 不相上下,能很好地理解中文,比 ChatGPT 更加容易获取和使用,感兴趣的话可以按照文内的教程注册使用,记得要乘早哦,说不定之后就会收费了。

    喜欢本期推荐的话请大家多多点赞收藏进行支持,之后会继续为大家推荐更多 AI 干货知识 ~ 有关于本文或者设计的问题可以在评论区提出 ,我会第一时间回复。、

    参考资料:

    https://www.theverge.com/2023/3/14/23640056/anthropic-ai-chatbot-claude-google-launch Anthropic launches Claude, a chatbot to rival OpenAI’s ChatGPT | TechCrunch 推荐阅读:

    这5款工具,让设计师工作效率提升 200%!(十六) 大家好哇,这里是和你们聊设计的花生~ 今天为大家带来的是第 16 期的设计师效率工具推荐,本期的 5 款效率神器分别是: 效果惊人!

    阅读文章 >

    AI绘画必看!5个实用技巧让图像生成效率提升200% 大家好,这里是和你们一起探索 AI 绘画的花生~ 想必很多设计师小伙伴都在用 Midjourney 生成各种设计灵感或者素材,比如 3D 人物、UI 界面,渐变纹理、矢量插画等,而且只要我们掌握了其中的关键词或者公式,就能快速生成对应的效果,非常方便。

    阅读文章 >

  • 万字长文!带你从零开始入门AI绘画神器Stable Diffusion

    UI交互 2023-04-22
    一、本地部署 Stable Diffusion1. 前言目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡...

    一、本地部署 Stable Diffusion 1. 前言

    目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡、内存)。

    E 和 Midjourney 相比,Stable Diffusion 最大的优势是开源,这意味着 Stable Diffusion 的潜力巨大、发展飞快。由于开源免费属性,SD 已经收获了大量活跃用户,开发者社群已经为此提供了大量免费高质量的外接预训练模型(fine-tune)和插件,并且在持续维护更新。在第三方插件和模型的加持下,SD 拥有比 Midjourney 更加丰富的个性化功能,在经过使用者调教后可以生成更贴近需求的图片,甚至在 AI 视频特效、AI 音乐生成等领域,Stable Diffusion 也占据了一席之地。

    Stable Diffusion 是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述在提 Stable Diffusion 就能生成符合你要求的逼真的图像!

    2. 电脑配置

    电脑配置最核心的关键点:看显卡、看内存、看硬盘、看 CPU。其中最重要的是看显卡。N 卡(英伟达 Nvida 独立显卡)首选,效率远超集显/AMD/Intel 显卡和 CPU 渲染,最低 10 系起步,体验感佳用 40 系,显存最低 4G,6G 及格,上不封顶;内存最低 8G,16G 及格,上不封顶;硬盘可用空间最好有个 500G 朝上,固态最佳。

    系统要求:支持 Win10/Win11/macOS(仅限 Apple Silicon,Intel 版本的 Mac 无法调用 Radeon 显卡)和 Linux 系统,苹果版 SD 兼容的插件数量较少,功能性不及 Windows 与 Linux 电脑。

    如果身边没有合适的电脑可以考虑购买云主机,比如腾讯 GPU 云服务器。若无法使用独立显卡和云服务,亦可修改启动配置,使用 CPU 渲染(兼容性强,出图速度慢,需要 16G 以上内存)。

    从图中可看出,与 AMD 或英特尔的任何产品相比,Nvidia 的 GPU 提供了卓越的性能--有时是以巨大的优势。随着 Torch 的 DLL 修复到位,RTX 4090 的性能比带有 xformers 的 RTX 3090 Ti 高出 50%,而没有 xformers 的性能则高出 43%。生成每张图片只需要三秒多。

    3. 安装方法

    SD 开源地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

    目前大家普遍采用的 Stable Diffusion Web UI 是发布于开源程序分享网站 Github 的 Python 项目,和平常软件安装方法有所不同,不是下载安装即可用的软件,需要准备执行环境、编译源码,针对不同操作系统(操作系统依赖)、不同电脑(硬件依赖)还有做些手工调整,这需要使用者拥有一定的程序开发经验(可以现学),已经有很多大佬们写了详细的安装教程。(如 https://www.tonyisstark.com/846.html @托尼不是塔克)

    如果像我一样是小白不会装,现在可以直接使用大佬们做的一键启动程序包,比如国内@秋葉 aaaki 大大开发的整合包,极大的降低了安装门槛(强烈推荐!)

    (详见 https://www.bilibili.com/video/BV1ne4y1V7QU )一键启动包只是封装了可视化的一键界面,不影响出图效果,只是降低了本地部署的门槛。

    Nvidia 显卡用户须知:在使用 SD 前,请登录 Nvidia 官网 https://www.nvidia.cn/geforce/drivers/ 下载安装对应显卡最新版驱动程序 ,与 https://blog.csdn.net/weixin_44177494/article/details/120444922 显卡支持的最新版 CUDA 驱动。

    4. 启动 SD

    进入 SD 安装文件夹,双击 webui-user.bat,待其加载完成方可使用浏览器(Chrome/Edge)登录默认的加载 IP http://127.0.0.1:7860/

    5. 界面汉化

    如果需要中文语言包,可以下载如下中文语言包扩展,下载界面网址为: https://github.com/VinsonLaro/stable-diffusion-webui-chinese

    方法 1:通过 WebUI 拓展进行安装

    打开 stable diffusion webui,进入"Extensions"选项卡 点击"Install from URL",注意"URL for extension's git repository"下方的输入框 粘贴或输入本 Git 仓库地址 https://github.com/VinsonLaro/stable-diffusion-webui-chinese 点击下方的黄色按钮"Install"即可完成安装,然后重启 WebUI(点击"Install from URL"左方的"Installed",然后点击黄色按钮"Apply and restart UI"网页下方的"Reload UI"完成重启) 点击"Settings",左侧点击"User interface"界面,在界面里最下方的"Localization (requires restart)",选择"Chinese-All"或者"Chinese-English" 点击界面最上方的黄色按钮"Apply settings",再点击右侧的"Reload UI"即可完成汉化 二、界面基础 1. 了解界面

    接下来是具体的使用方法简介。目前 SD 并不存在通行可靠的使用规范,每个人的电脑配置、需求都不尽相同,cpkd/Safetensors 大模型、VAE、embeding、lora 等 AI 模型、各类插件、提示词、输出参数的组合牵一发则动全身,需要大家有足够的耐心查阅插件开发者的说明文档和来自 https://civitai.com/ 等分享网站的使用心得 ,大家可以先到 civitai 上搜索中意的图例,复用原作者的出图提示词、参数和模型,再以此修改,这样学习的效果最为直观。

    文生图:根据文本提示生成图像

    图生图:根据提供的图像作为范本、结合文本提示生成图像

    更多:优化(清晰、扩展)图像

    图片信息:显示图像基本信息,包含提示词和模型信息(除非信息被隐藏)

    模型合并:把已有的模型按不同比例进行合并生成新模型

    训练:根据提供的图片训练具有某种图像风格的模型

    描述语分为正向/负向描述,它们也叫 tag(标签)或 prompt(提示词)

    正面提示词:相比 Midjourney 需要写得更精准和细致,描述少就给 AI 更多自由发挥空间。

    负面提示词:不想让 SD 生成的内容。

    正向:masterpiece, best quality, 更多画质词,画面描述

    反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根据画面产出加不想出现的画面。

    生成下面的 5 个小图标(从左到右依次分别是)

    复原上次生成图片的提示词(自动记录) 清空当前所有提示词 打开模型选择界面 应用选择的风格模板到当前的提示词 存档当前的正反向提示词

    2. 采样方法

    建议根据自己使用的 checkpoint 使用脚本跑网格图(用自己关心的参数)然后选择自己想要的结果。 懒得对比:请使用 DPM++ 2M 或 DPM++ 2M Karras(二次元图)或 UniPC,想要点惊喜和变化,Euler a、DPM++ SDE、DPM++ SDE Karras(写实图)、DPM2 a Karras(注意调整对应 eta 值) eta 和 sigma 都是多样性相关的,但是它们的多样性来自步数的变化,追求更大多样性的话应该关注 seed 的变化,这两项参数应该是在图片框架被选定后,再在此基础上做微调时使用的参数。 3. 采样步数

    稳定扩散通过从充满噪音的画布开始创建图像,并逐渐去噪以达到最终输出。此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是 25 个步骤。以下是不同情况下使用哪个步骤编号的一般指南:

    如果您正在测试新的提示,并希望获得快速结果来调整您的输入,请使用 10-15 个步骤 当您找到您喜欢的提示时,请将步骤增加到 25 如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到 40

    面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。

    平铺:生成一张可以平铺的图像

    高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中该选项会有一系列新的参数,

    其中重要的是:

    放大算法:Latent 在许多情况下效果不错,但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 对 0.5 以下的重绘幅度有较好支持。

    放大倍数: 通常 2 倍即可

    重绘幅度:决定算法对图像内容的保留程度。该值越高,放大后图像就比放大前图像差别越大。低 denoising 意味着修正原图,高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些,0 什么都不会改变,1 会得到一个完全不同的图像。具体的执行步骤为 重绘强度 * 重绘步数。

    长宽尺寸(分辨率)

    长宽尺寸并非数值越大越好,最佳的范围应在 512 至 768 像素之间,比如正方形图多是 512*512 和 768*768,人像肖像 512x768,风景画 768×512,可按比例加大或减小,这个值必须是 8 的倍数。如果不希望主题对象出现重复,应在此范围内选择适当的尺寸。如果需要更高分辨率的图片,建议先使用 SD 模型生成图片,然后再使用合适的模型进行 upscale。

    生成批次:每次生成图像的组数。一次运行生成图像的数量为生成批次 * 每批数量。

    每批数量:同时生成多少个图像。增加这个值可以提高性能,但你也需要更多的 VRAM。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1。

    提示词相关性 CFG:较高的数值将提高生成结果与提示的匹配度。 OpenArt 上使用的默认 CFG 是 7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于 5。

    CFG 量表可以分为不同的范围,每个范围都适合不同的提示类型和目标

    CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用 CFG 710:推荐用于大多数提示。创造力和引导一代之间的良好平衡 CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时 CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量 CFG >20:几乎无法使用 随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。

    3. 提示词生成

    开始不知道怎么写提示词,可以先参考优秀的风格模板作为起手式,还可以借助描述语工具和网站,多出图多研究,掌握了出图规律,慢慢就可以自己写提示词啦,写提示词要尽可能写的详细。跑 AI 的过程就像抽卡,抽出一堆卡,选出你审美范畴里觉得好看的。

    找 tag 关键词网站:

    可参考 Civitai | Stable Diffusion models, embeddings, hypernetworks and more 中优秀作品的提示词作为模板。

    其他网站还有:

    ChatGPT: https://chat.openai.com/ AI Creator: https://ai-creator.net/arts NovelAI: https://spell.novelai.dev 魔咒百科词典: https://aitag.top AI 咒术生成器: https://tag.redsex.cc/ AI 词汇加速器 AcceleratorI Prompt: 词图 PromptTool: https://www.prompttool.com/NovelAI 鳖哲法典: http://tomxlysplay.com.cn/#/ Danbooru tag:Tag Groups Wiki | Danbooru (donmai.us) 4. Prompt 格式优化

    第一段:画质 tag,画风 tag

    第二段:画面主体,主体强调,主体细节概括(主体可以是人、事、物、景)画面核心内容

    第三段:画面场景细节,或人物细节,embedding tag。画面细节内容

    第二段一般提供人数,人物主要特征,主要动作(一般置于人物之前),物体主要特征,主景或景色框架等

    举个例子:(具体场景还是要灵活应用,多尝试,找到合适自己的节奏和风格)

    第一段:masterpiece, best quality, 4k, ( Pixar - style :1.4)

    第二段:1boy,(Cute,handsome,wearing outdoor sportswear :0.7), 3D,(Face close-up :1.2), (at night, surrounded by glowing plants, flowers, flying fireflies, bonfires), (Ultra detailed, aesthetic, beautiful composition, rich bright colors, volumetric soft light).

    第三段:Inspired by Alice in Wonderland, magic, fairy tales. unreal Engine, octane render, cuteness render, awe inspiring, beautiful,

    5. Prompt 规则细节

    ①越靠前的 Tag 权重越大。

    ②生成图片的大小会影响 Prompt 的效果,图片越大需要的 Prompt 越多,不然 Prompt 会相互污染。

    ③Stable-diffusion 中,可以使用括号人工修改提示词的权重,方法如下:

    (word) - 将权重提高 1.1 倍 ((word)) - 将权重提高 1.21 倍(= 1.1 * 1.1) [word] - 将权重降低至原先的 90.91% (word:1.5) - 将权重提高 1.5 倍 (word:0.25) - 将权重减少为原先的 25%

    请注意,权重值最好不要超过 1.5

    ④Prompt 支持使用 emoji,可通过添加 emoji 达到表现效果。如?形容表情,?可修手。

    ⑤“+” , “ AND” , “|” 用法:“+”和“ AND ”都是用于连接短 Tag,但 AND 两端要加空格。"+"约等于" and ";“|” 为循环绘制符号(融合符号)(Prompt A: w1)|(Prompt B: w2)

    以上表达适用于 WebUI,w1、w2 为权重。AI 会对 A、B 两 Prompt 进行循环绘制。可往后无限加入 Prompt。

    ⑥tag 不一定是多么充满细节,只要模型稳定。小图+高分辨率重绘。800*400 的图变成 1600*800,初识小图减少崩坏概率。

    ⑦关键词最好具有特异性,譬如 Anime(动漫)一词就相对泛化,而 Jojo 一词就能清晰地指向 Jojo 动漫的画风。措辞越不抽象越好,尽可能避免留下解释空间的措辞。

    三、了解模型 1. 下载模型

    主流模型下载网站:

    Hugging face 是一个专注于构建、训练和部署先进开源机器学习模型的网站: https://huggingface.co/ Civitai 是一个专为 Stable Diffusion AI 艺术模型设计的网站,是非常好的 AI 模型库: https://civitai.com/ 主流模型被删除可以去备用模型站下载: https://www.4b3.com

    2. 模型选择

    如何选择合适模型是最重要的。

    从你想画的风格(写实、二次元、卡通盲盒等)来选择大模型,再搭配合适的 Lora。

    ①Checkpoint

    体积较大,也被称为大模型,不同的大模型使用不同的图片训练而成,对应不同的风格,相当于最底层的引擎。有时候需要大模型+VAE+emb+Lora 联合搭配使用以达到需要的效果。

    下载的大模型可放置于 SD 文件夹/models/Stable-diffusion 内。

    ②Lora

    Lora 是特征模型,体积较小,是基于某个确定的角色、确定的风格或者固定的动作训练而成的模型,可使用权重控制,确定性要远强于 embedding。embedding 和 Lora 有功能交集的部分,也有互相不可取代的地方。

    在 ckpt 大模型上附加使用,对人物、姿势、物体表现较好。在 webui 界面的 Additional Networks 下勾线 Enable 启用,然后在 Model 下选择模型,并可用 Weight 调整权重。权重越大,该 Lora 的影响也越大。不建议权重过大(超过 1.2),否则很容易出现扭曲的结果。

    多个 Lora 模型混合使用可以起到叠加效果,譬如一个控制面部的 Lora 配合一个控制画风的 Lora 就可以生成具有特定画风的特定人物。因此可以使用多个专注于不同方面优化的 Lora,分别调整权重,结合出自己想要实现的效果。

    LoHA 模型是一种 LORA 模型的改进。

    LoCon 模型也一种 LORA 模型的改进,泛化能力更强。

    下载的 Lora 可放置于 SD 文件夹/models/Lora 内。

    ③VAE

    VAE 模型类似滤镜,对画面进行调色与微调,一般需要搭配相应的模型一起使用。(如果图片比较灰,颜色不太靓丽,就可能是没加载 vae)

    下载的 VAE 可放置于 SD 文件夹/models/VAE 内。

    ④Textual inversion(embedding)

    关键词预设模型,即关键词打包,即等于预设好一篮子关键词 a,b,c 打包,进而来指代特定的对象/风格。也可以通过下载 Textual inversion 进行使用。

    下载的 embedding 可放置于 SD 文件夹/embeddings 内。

    四、ControlNet ControlNet 使得 SD 从玩具变成做商业项目的神器,接下来会重中之重来详细讲解一下。

    ControlNet 是斯坦福大学研究人员开发的 Stable Diffusion 的扩展,使创作者能够轻松地控制 AI 图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成。ControlNet 可以概括为一种简单的稳定扩散微调方法。ControlNet 的工作原理是将可训练的网络模块附加到稳定扩散模型的 U-Net (噪声预测器)的各个部分。Stable Diffusion 模型的权重是锁定的,在训练过程中它们是不变的。在训练期间仅修改附加模块。

    1. 安装

    从 github 上找到并把网址填到扩展里安装,安装完后记得点击 Apply and restart UI( https://github.com/Mikubill/sd-webui-controlnet )

    将 ControlNet 模型(.pt、.pth、.ckpt 或.safetensors)放入 models/ControlNet 文件夹。 打开“txt2img”或“img2img”选项卡,写下您的提示。 按“刷新模型”,选择要使用的模型。(若没有出现,请尝试重新加载/重新启动 webui) 上传您的图像并选择预处理器,完成。 目前,它支持完整型号和修剪型号。使用 extract_controlnet.py 从原始.pth 文件中提取 controlnet。

    预训练模型: https://huggingface.co/lllyasviel/ControlNet/tree/main/models

    2. 界面介绍

    开启 :选中此框以启用 ControlNet。

    颜色反转:交换黑色和白色。例如,它可以在您上传涂鸦时使用。ControlNet 需要黑色背景和白色涂鸦。如果您使用白色背景的外部软件创建涂鸦,则必须使用此选项。如果您使用 ControlNet 的界面创建涂鸦,则不需要使用此选项。

    RGB 转为 BGR :用于检测用户导入图像中的颜色信息。有时图像中的颜色信息可能与扩展所期望的不同。如果您上传图像并使用预处理,则无需选中此框。

    低显存:这将减缓 ETA 进程,但有助于使用更少的计算空间(显存小于 8 GB VRAM 建议使用),检查您是否用完了 GPU 内存,或者想要增加处理的图像数量。

    推测模式:ControlNet 自动识别图像(不需要提示和负面提示)与选定的预处理器。它强制 ControlNet 编码器遵循输入控制图(如深度、边缘等),即使没有提示也是如此。使用此模式时使用更高的步进,例如 50,但是这个效果不一定好。

    权重(Weight):代表使用 ControlNet 生成图片时被应用的权重占比。

    引导介入时机(Guidance Start):在理解此功能之前,我们应该先知道生成图片的 Sampling steps 采样步数功能,步数代表生成一张图片要刷新计算多少次,Guidance Start(T) 设置为 0 即代表开始时就介入,默认为 0,设置为 0.5 时即代表 ControlNet 从 50% 步数时开始介入计算。

    引导退出时机(Guidance End):和引导介入时机相对应,如设置为 1,则表示在 100%计算完时才会退出介入也就是不退出,默认为 1,可调节范围 0-1,如设置为 0.8 时即代表从 80% 步数时退出介入。

    调整大小模式提供了调整 ControlNet 大小和上传图像的纵横比。

    Just Resize:不保留纵横比的情况下,改变 ControlNet 图像的大小以匹配 Txt2Img 设置的宽度和高度。这包括拉伸或压缩图像以适应指定的尺寸。

    Scale to Fit (Inner Fit):调整 ControlNet 图像的大小以适应 Txt2Image 的尺寸。它将调整图像的大小,直到它能够适应 Txt2Image 设置的宽度和高度。

    Envelope (Outer Fit):调整 Txt2Image 的大小以适应 ControlNet 图像的尺寸。它将调整图像的大小,直到 Txt2Image 设置可以适合 ControlNet 图像。

    画布宽度 和 画布高度 提供手动创建绘图或草图以,不上传任何图像(最好使用 Scribble 预处理器以获得良好的输出)。它会调整空白画布的大小来进行绘制,不会影响上传的原始图像。

    预览图片处理结果:能够快速查看选择的预处理器是如何将上传的图像或绘图转换为 ControlNet 的检测图。对在渲染输出图像之前尝试各种预处理器有用,可节省我们的时间。

    隐藏处理结果:删除预览图像。

    预处理器和模型是 ControlNet 的主要选项。

    预处理器:用于对输入图像进行预处理,例如检测边缘、深度和法线贴图。None 使用输入图像作为控制图。 根据所需的输出,用户可以选择相应的控制方法。

    模型:如果您选择了预处理器,您通常会选择相应的模型。但是它并不限制你混合和匹配所有的预处理器和模型,但是混合多了就会产生负面效果,所以最好使用更加匹配的模型并且越少越好。ControlNet 模型与在 AUTOMATIC1111 GUI 顶部选择的稳定扩散模型一起使用。

    五、预处理器 下面我们介绍几个常用的 ControlNet,并在下面举例说明如何使用它。

    1. Canny 边缘检测

    Canny 通过使用边缘检测器创建高对比度区域的轮廓来检测输入图像。线条可以捕捉到非常详细的信息,但如果你的图像背景中有一些物体,它很可能会检测到不需要的物体。所以背景中物体越少效果越好。用于此预处理器的最佳模型是 control_sd15_canny。

    2. Depth & Depth Leres

    这个预处理器有助于生成输入图像的深度估计。深度通常用于控制图像内物体的空间定位。浅色区域意味着它离用户更近,而深色区域则离用户更远。

    在大图像时它可能会丢失图像内部的细节(面部表情等)。一般会与 control_sd15_depth 模型组合使用。Midas Resolution 函数用于增加或减少 detectmap 中的大小和细节级别。它的级别越高,将使用更多的 VRAM,但可以生成更高质量的图像,反之亦然。

    Depth Leres 有与 Depth 相同的基本概念,但在地图中包含更广泛的范围。但有时它会从图片中捕获了太多信息,可能会生成与原始图像略有不同的图像。所以最好先试用两种预处理器,然后决定哪一种。

    3. HED (Holistically-Nested Edge Detection)

    Hed 可以在物体周围创建清晰和精细的边界,输出类似于 Canny,但减少了噪声和更柔软的边缘。它的有效性在于能够捕捉复杂的细节和轮廓,同时保留细节特征(面部表情、头发、手指等)。Hed 预处理器可用于修改图像的风格和颜色。用于此预处理器的最佳模型是 control_sd15_hed。

    4. MLSD ( Mobile Line Segment Detection)

    MLSD Preprocessor 最适合生成强有力的线条,这些线条能够检测出需要独特和刚性轮廓的建筑和其他人造作品。但是它不适用于处理非刚性或弯曲的物体。MLSD 适用于生成室内布局或建筑结构,因为它可以突出直线和边缘。用于此预处理器的最佳模型是 control_sd15_mlsd。

    5. Normal map

    法线图使用了三种主要颜色(红、绿、蓝),通过不同的角度来精确定位物体的粗糙度和光滑程度。它生成法线图的基本估计,可以保留相当多的细节,但可能会产生意想不到的结果,因为法线图完全来自图像,而不是在 3D 建模软件中构建的。

    法线图有利于突出复杂的细节和轮廓,并且在定位对象方面也很有效,特别是在接近度和距离方面。“Normal Background Threshold”用于调整背景成分。设置一个更高的阈值可以移除背景的远处部分(将其混合成紫色)。降低阈值将命令 AI 保留甚至显示额外的背景元素。用于此预处理器的最佳模型是 control_sd15_normal。

    6. OpenPose

    这个预处理器生成了一个基本的骨骼火柴人形象。这种技术被广泛采用,因为多个 OpenPose 骨架可以组合成一个图像,这有助于引导稳定扩散生成多个一致的主题。骨架图有很多关节点,每个点代表如下图所示。

    7. Scribble

    涂鸦的目的是从简单的黑白线条画和草图生成图像。用户也可以使用“Canvas”选项创建特定大小的空白画布,用于手动素描(也可以直接上传图像)。如果草图和绘图由白色背景上的黑线组成,则需要选中“Invert Input Color”复选框。用于这个预处理器的最佳模型是 control_sd15_openpose。

    8. Segmentation

    分割预处理器检测并将上传的图像分割为同一图像内的段或区域。该模型在生成一组新的图像时,将 detectmap 图像应用于文本提示。用于此预处理器的最佳模型是 control_sd15_seg。

    附录:预处理器与对应模型清单

    总结 使用 AI 绘图工具 Stable Diffusion 确实能提高美术工作者的生产效率,但是请记住:人工智能,没有人工就没有智能。Stable Diffusion 并不是简单易上手的 APP,我们需要花费一定的时间和精力去学习和不断调试,才能使其真正为我们所用,高效产出效果符合需求的图片。

    最后,我为大家简单罗列一下使用 SD 的几项核心能力:

    Github 使用能力,使用者在熟练掌握 Github 开源项目的安装、调参、排错、编程环境设置等技能后,就不会在 SD 报错时六神无主了。 基础出图调试能力,这项能力能够让使用者无需协助就能自行摸索稳定输出可用的图片。 Controlnet 构图能力,基于 Controlnet 的构图控制是美术从业者驾驭 SD 的缰绳,不会用 Controlnet,你只会被随机噪声牵着走。 学习插件并组合使用的能力。 Lora 等小模型的训练能力(进阶)。 如本文对您有帮助,欢迎将其分享给需要的朋友~关注我,接下来会分享更多关于 Stable Diffusion 的进阶内容和商业落地项目。

    站在巨人的肩膀上

    https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis https://muhou.net/document/236688.html https://guide.novelai.dev/guide/prompt-engineering/practice https://zhuanlan.zhihu.com/p/619721909 https://zhuanlan.zhihu.com/p/612572004 https://www.163.com/dy/article/I22IV66G0518R7MO.html https://stable-diffusion-art.com/controlnet/ 欢迎关注作者的微信公众号:生誮果Design

  • 万字长文!带你从零开始入门AI绘画神器Stable Diffusion

    UI交互 2023-04-22
    一、本地部署 Stable Diffusion1. 前言目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡...

    一、本地部署 Stable Diffusion 1. 前言

    目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡、内存)。

    E 和 Midjourney 相比,Stable Diffusion 最大的优势是开源,这意味着 Stable Diffusion 的潜力巨大、发展飞快。由于开源免费属性,SD 已经收获了大量活跃用户,开发者社群已经为此提供了大量免费高质量的外接预训练模型(fine-tune)和插件,并且在持续维护更新。在第三方插件和模型的加持下,SD 拥有比 Midjourney 更加丰富的个性化功能,在经过使用者调教后可以生成更贴近需求的图片,甚至在 AI 视频特效、AI 音乐生成等领域,Stable Diffusion 也占据了一席之地。

    Stable Diffusion 是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述在提 Stable Diffusion 就能生成符合你要求的逼真的图像!

    2. 电脑配置

    电脑配置最核心的关键点:看显卡、看内存、看硬盘、看 CPU。其中最重要的是看显卡。N 卡(英伟达 Nvida 独立显卡)首选,效率远超集显/AMD/Intel 显卡和 CPU 渲染,最低 10 系起步,体验感佳用 40 系,显存最低 4G,6G 及格,上不封顶;内存最低 8G,16G 及格,上不封顶;硬盘可用空间最好有个 500G 朝上,固态最佳。

    系统要求:支持 Win10/Win11/macOS(仅限 Apple Silicon,Intel 版本的 Mac 无法调用 Radeon 显卡)和 Linux 系统,苹果版 SD 兼容的插件数量较少,功能性不及 Windows 与 Linux 电脑。

    如果身边没有合适的电脑可以考虑购买云主机,比如腾讯 GPU 云服务器。若无法使用独立显卡和云服务,亦可修改启动配置,使用 CPU 渲染(兼容性强,出图速度慢,需要 16G 以上内存)。

    从图中可看出,与 AMD 或英特尔的任何产品相比,Nvidia 的 GPU 提供了卓越的性能--有时是以巨大的优势。随着 Torch 的 DLL 修复到位,RTX 4090 的性能比带有 xformers 的 RTX 3090 Ti 高出 50%,而没有 xformers 的性能则高出 43%。生成每张图片只需要三秒多。

    3. 安装方法

    SD 开源地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

    目前大家普遍采用的 Stable Diffusion Web UI 是发布于开源程序分享网站 Github 的 Python 项目,和平常软件安装方法有所不同,不是下载安装即可用的软件,需要准备执行环境、编译源码,针对不同操作系统(操作系统依赖)、不同电脑(硬件依赖)还有做些手工调整,这需要使用者拥有一定的程序开发经验(可以现学),已经有很多大佬们写了详细的安装教程。(如 https://www.tonyisstark.com/846.html @托尼不是塔克)

    如果像我一样是小白不会装,现在可以直接使用大佬们做的一键启动程序包,比如国内@秋葉 aaaki 大大开发的整合包,极大的降低了安装门槛(强烈推荐!)

    (详见 https://www.bilibili.com/video/BV1ne4y1V7QU )一键启动包只是封装了可视化的一键界面,不影响出图效果,只是降低了本地部署的门槛。

    Nvidia 显卡用户须知:在使用 SD 前,请登录 Nvidia 官网 https://www.nvidia.cn/geforce/drivers/ 下载安装对应显卡最新版驱动程序 ,与 https://blog.csdn.net/weixin_44177494/article/details/120444922 显卡支持的最新版 CUDA 驱动。

    4. 启动 SD

    进入 SD 安装文件夹,双击 webui-user.bat,待其加载完成方可使用浏览器(Chrome/Edge)登录默认的加载 IP http://127.0.0.1:7860/

    5. 界面汉化

    如果需要中文语言包,可以下载如下中文语言包扩展,下载界面网址为: https://github.com/VinsonLaro/stable-diffusion-webui-chinese

    方法 1:通过 WebUI 拓展进行安装

    打开 stable diffusion webui,进入"Extensions"选项卡 点击"Install from URL",注意"URL for extension's git repository"下方的输入框 粘贴或输入本 Git 仓库地址 https://github.com/VinsonLaro/stable-diffusion-webui-chinese 点击下方的黄色按钮"Install"即可完成安装,然后重启 WebUI(点击"Install from URL"左方的"Installed",然后点击黄色按钮"Apply and restart UI"网页下方的"Reload UI"完成重启) 点击"Settings",左侧点击"User interface"界面,在界面里最下方的"Localization (requires restart)",选择"Chinese-All"或者"Chinese-English" 点击界面最上方的黄色按钮"Apply settings",再点击右侧的"Reload UI"即可完成汉化 二、界面基础 1. 了解界面

    接下来是具体的使用方法简介。目前 SD 并不存在通行可靠的使用规范,每个人的电脑配置、需求都不尽相同,cpkd/Safetensors 大模型、VAE、embeding、lora 等 AI 模型、各类插件、提示词、输出参数的组合牵一发则动全身,需要大家有足够的耐心查阅插件开发者的说明文档和来自 https://civitai.com/ 等分享网站的使用心得 ,大家可以先到 civitai 上搜索中意的图例,复用原作者的出图提示词、参数和模型,再以此修改,这样学习的效果最为直观。

    文生图:根据文本提示生成图像

    图生图:根据提供的图像作为范本、结合文本提示生成图像

    更多:优化(清晰、扩展)图像

    图片信息:显示图像基本信息,包含提示词和模型信息(除非信息被隐藏)

    模型合并:把已有的模型按不同比例进行合并生成新模型

    训练:根据提供的图片训练具有某种图像风格的模型

    描述语分为正向/负向描述,它们也叫 tag(标签)或 prompt(提示词)

    正面提示词:相比 Midjourney 需要写得更精准和细致,描述少就给 AI 更多自由发挥空间。

    负面提示词:不想让 SD 生成的内容。

    正向:masterpiece, best quality, 更多画质词,画面描述

    反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根据画面产出加不想出现的画面。

    生成下面的 5 个小图标(从左到右依次分别是)

    复原上次生成图片的提示词(自动记录) 清空当前所有提示词 打开模型选择界面 应用选择的风格模板到当前的提示词 存档当前的正反向提示词

    2. 采样方法

    建议根据自己使用的 checkpoint 使用脚本跑网格图(用自己关心的参数)然后选择自己想要的结果。 懒得对比:请使用 DPM++ 2M 或 DPM++ 2M Karras(二次元图)或 UniPC,想要点惊喜和变化,Euler a、DPM++ SDE、DPM++ SDE Karras(写实图)、DPM2 a Karras(注意调整对应 eta 值) eta 和 sigma 都是多样性相关的,但是它们的多样性来自步数的变化,追求更大多样性的话应该关注 seed 的变化,这两项参数应该是在图片框架被选定后,再在此基础上做微调时使用的参数。 3. 采样步数

    稳定扩散通过从充满噪音的画布开始创建图像,并逐渐去噪以达到最终输出。此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是 25 个步骤。以下是不同情况下使用哪个步骤编号的一般指南:

    如果您正在测试新的提示,并希望获得快速结果来调整您的输入,请使用 10-15 个步骤 当您找到您喜欢的提示时,请将步骤增加到 25 如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到 40

    面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。

    平铺:生成一张可以平铺的图像

    高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中该选项会有一系列新的参数,

    其中重要的是:

    放大算法:Latent 在许多情况下效果不错,但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 对 0.5 以下的重绘幅度有较好支持。

    放大倍数: 通常 2 倍即可

    重绘幅度:决定算法对图像内容的保留程度。该值越高,放大后图像就比放大前图像差别越大。低 denoising 意味着修正原图,高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些,0 什么都不会改变,1 会得到一个完全不同的图像。具体的执行步骤为 重绘强度 * 重绘步数。

    长宽尺寸(分辨率)

    长宽尺寸并非数值越大越好,最佳的范围应在 512 至 768 像素之间,比如正方形图多是 512*512 和 768*768,人像肖像 512x768,风景画 768×512,可按比例加大或减小,这个值必须是 8 的倍数。如果不希望主题对象出现重复,应在此范围内选择适当的尺寸。如果需要更高分辨率的图片,建议先使用 SD 模型生成图片,然后再使用合适的模型进行 upscale。

    生成批次:每次生成图像的组数。一次运行生成图像的数量为生成批次 * 每批数量。

    每批数量:同时生成多少个图像。增加这个值可以提高性能,但你也需要更多的 VRAM。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1。

    提示词相关性 CFG:较高的数值将提高生成结果与提示的匹配度。 OpenArt 上使用的默认 CFG 是 7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于 5。

    CFG 量表可以分为不同的范围,每个范围都适合不同的提示类型和目标

    CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用 CFG 710:推荐用于大多数提示。创造力和引导一代之间的良好平衡 CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时 CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量 CFG >20:几乎无法使用 随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。

    3. 提示词生成

    开始不知道怎么写提示词,可以先参考优秀的风格模板作为起手式,还可以借助描述语工具和网站,多出图多研究,掌握了出图规律,慢慢就可以自己写提示词啦,写提示词要尽可能写的详细。跑 AI 的过程就像抽卡,抽出一堆卡,选出你审美范畴里觉得好看的。

    找 tag 关键词网站:

    可参考 Civitai | Stable Diffusion models, embeddings, hypernetworks and more 中优秀作品的提示词作为模板。

    其他网站还有:

    ChatGPT: https://chat.openai.com/ AI Creator: https://ai-creator.net/arts NovelAI: https://spell.novelai.dev 魔咒百科词典: https://aitag.top AI 咒术生成器: https://tag.redsex.cc/ AI 词汇加速器 AcceleratorI Prompt: 词图 PromptTool: https://www.prompttool.com/NovelAI 鳖哲法典: http://tomxlysplay.com.cn/#/ Danbooru tag:Tag Groups Wiki | Danbooru (donmai.us) 4. Prompt 格式优化

    第一段:画质 tag,画风 tag

    第二段:画面主体,主体强调,主体细节概括(主体可以是人、事、物、景)画面核心内容

    第三段:画面场景细节,或人物细节,embedding tag。画面细节内容

    第二段一般提供人数,人物主要特征,主要动作(一般置于人物之前),物体主要特征,主景或景色框架等

    举个例子:(具体场景还是要灵活应用,多尝试,找到合适自己的节奏和风格)

    第一段:masterpiece, best quality, 4k, ( Pixar - style :1.4)

    第二段:1boy,(Cute,handsome,wearing outdoor sportswear :0.7), 3D,(Face close-up :1.2), (at night, surrounded by glowing plants, flowers, flying fireflies, bonfires), (Ultra detailed, aesthetic, beautiful composition, rich bright colors, volumetric soft light).

    第三段:Inspired by Alice in Wonderland, magic, fairy tales. unreal Engine, octane render, cuteness render, awe inspiring, beautiful,

    5. Prompt 规则细节

    ①越靠前的 Tag 权重越大。

    ②生成图片的大小会影响 Prompt 的效果,图片越大需要的 Prompt 越多,不然 Prompt 会相互污染。

    ③Stable-diffusion 中,可以使用括号人工修改提示词的权重,方法如下:

    (word) - 将权重提高 1.1 倍 ((word)) - 将权重提高 1.21 倍(= 1.1 * 1.1) [word] - 将权重降低至原先的 90.91% (word:1.5) - 将权重提高 1.5 倍 (word:0.25) - 将权重减少为原先的 25%

    请注意,权重值最好不要超过 1.5

    ④Prompt 支持使用 emoji,可通过添加 emoji 达到表现效果。如?形容表情,?可修手。

    ⑤“+” , “ AND” , “|” 用法:“+”和“ AND ”都是用于连接短 Tag,但 AND 两端要加空格。"+"约等于" and ";“|” 为循环绘制符号(融合符号)(Prompt A: w1)|(Prompt B: w2)

    以上表达适用于 WebUI,w1、w2 为权重。AI 会对 A、B 两 Prompt 进行循环绘制。可往后无限加入 Prompt。

    ⑥tag 不一定是多么充满细节,只要模型稳定。小图+高分辨率重绘。800*400 的图变成 1600*800,初识小图减少崩坏概率。

    ⑦关键词最好具有特异性,譬如 Anime(动漫)一词就相对泛化,而 Jojo 一词就能清晰地指向 Jojo 动漫的画风。措辞越不抽象越好,尽可能避免留下解释空间的措辞。

    三、了解模型 1. 下载模型

    主流模型下载网站:

    Hugging face 是一个专注于构建、训练和部署先进开源机器学习模型的网站: https://huggingface.co/ Civitai 是一个专为 Stable Diffusion AI 艺术模型设计的网站,是非常好的 AI 模型库: https://civitai.com/ 主流模型被删除可以去备用模型站下载: https://www.4b3.com

    2. 模型选择

    如何选择合适模型是最重要的。

    从你想画的风格(写实、二次元、卡通盲盒等)来选择大模型,再搭配合适的 Lora。

    ①Checkpoint

    体积较大,也被称为大模型,不同的大模型使用不同的图片训练而成,对应不同的风格,相当于最底层的引擎。有时候需要大模型+VAE+emb+Lora 联合搭配使用以达到需要的效果。

    下载的大模型可放置于 SD 文件夹/models/Stable-diffusion 内。

    ②Lora

    Lora 是特征模型,体积较小,是基于某个确定的角色、确定的风格或者固定的动作训练而成的模型,可使用权重控制,确定性要远强于 embedding。embedding 和 Lora 有功能交集的部分,也有互相不可取代的地方。

    在 ckpt 大模型上附加使用,对人物、姿势、物体表现较好。在 webui 界面的 Additional Networks 下勾线 Enable 启用,然后在 Model 下选择模型,并可用 Weight 调整权重。权重越大,该 Lora 的影响也越大。不建议权重过大(超过 1.2),否则很容易出现扭曲的结果。

    多个 Lora 模型混合使用可以起到叠加效果,譬如一个控制面部的 Lora 配合一个控制画风的 Lora 就可以生成具有特定画风的特定人物。因此可以使用多个专注于不同方面优化的 Lora,分别调整权重,结合出自己想要实现的效果。

    LoHA 模型是一种 LORA 模型的改进。

    LoCon 模型也一种 LORA 模型的改进,泛化能力更强。

    下载的 Lora 可放置于 SD 文件夹/models/Lora 内。

    ③VAE

    VAE 模型类似滤镜,对画面进行调色与微调,一般需要搭配相应的模型一起使用。(如果图片比较灰,颜色不太靓丽,就可能是没加载 vae)

    下载的 VAE 可放置于 SD 文件夹/models/VAE 内。

    ④Textual inversion(embedding)

    关键词预设模型,即关键词打包,即等于预设好一篮子关键词 a,b,c 打包,进而来指代特定的对象/风格。也可以通过下载 Textual inversion 进行使用。

    下载的 embedding 可放置于 SD 文件夹/embeddings 内。

    四、ControlNet ControlNet 使得 SD 从玩具变成做商业项目的神器,接下来会重中之重来详细讲解一下。

    ControlNet 是斯坦福大学研究人员开发的 Stable Diffusion 的扩展,使创作者能够轻松地控制 AI 图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成。ControlNet 可以概括为一种简单的稳定扩散微调方法。ControlNet 的工作原理是将可训练的网络模块附加到稳定扩散模型的 U-Net (噪声预测器)的各个部分。Stable Diffusion 模型的权重是锁定的,在训练过程中它们是不变的。在训练期间仅修改附加模块。

    1. 安装

    从 github 上找到并把网址填到扩展里安装,安装完后记得点击 Apply and restart UI( https://github.com/Mikubill/sd-webui-controlnet )

    将 ControlNet 模型(.pt、.pth、.ckpt 或.safetensors)放入 models/ControlNet 文件夹。 打开“txt2img”或“img2img”选项卡,写下您的提示。 按“刷新模型”,选择要使用的模型。(若没有出现,请尝试重新加载/重新启动 webui) 上传您的图像并选择预处理器,完成。 目前,它支持完整型号和修剪型号。使用 extract_controlnet.py 从原始.pth 文件中提取 controlnet。

    预训练模型: https://huggingface.co/lllyasviel/ControlNet/tree/main/models

    2. 界面介绍

    开启 :选中此框以启用 ControlNet。

    颜色反转:交换黑色和白色。例如,它可以在您上传涂鸦时使用。ControlNet 需要黑色背景和白色涂鸦。如果您使用白色背景的外部软件创建涂鸦,则必须使用此选项。如果您使用 ControlNet 的界面创建涂鸦,则不需要使用此选项。

    RGB 转为 BGR :用于检测用户导入图像中的颜色信息。有时图像中的颜色信息可能与扩展所期望的不同。如果您上传图像并使用预处理,则无需选中此框。

    低显存:这将减缓 ETA 进程,但有助于使用更少的计算空间(显存小于 8 GB VRAM 建议使用),检查您是否用完了 GPU 内存,或者想要增加处理的图像数量。

    推测模式:ControlNet 自动识别图像(不需要提示和负面提示)与选定的预处理器。它强制 ControlNet 编码器遵循输入控制图(如深度、边缘等),即使没有提示也是如此。使用此模式时使用更高的步进,例如 50,但是这个效果不一定好。

    权重(Weight):代表使用 ControlNet 生成图片时被应用的权重占比。

    引导介入时机(Guidance Start):在理解此功能之前,我们应该先知道生成图片的 Sampling steps 采样步数功能,步数代表生成一张图片要刷新计算多少次,Guidance Start(T) 设置为 0 即代表开始时就介入,默认为 0,设置为 0.5 时即代表 ControlNet 从 50% 步数时开始介入计算。

    引导退出时机(Guidance End):和引导介入时机相对应,如设置为 1,则表示在 100%计算完时才会退出介入也就是不退出,默认为 1,可调节范围 0-1,如设置为 0.8 时即代表从 80% 步数时退出介入。

    调整大小模式提供了调整 ControlNet 大小和上传图像的纵横比。

    Just Resize:不保留纵横比的情况下,改变 ControlNet 图像的大小以匹配 Txt2Img 设置的宽度和高度。这包括拉伸或压缩图像以适应指定的尺寸。

    Scale to Fit (Inner Fit):调整 ControlNet 图像的大小以适应 Txt2Image 的尺寸。它将调整图像的大小,直到它能够适应 Txt2Image 设置的宽度和高度。

    Envelope (Outer Fit):调整 Txt2Image 的大小以适应 ControlNet 图像的尺寸。它将调整图像的大小,直到 Txt2Image 设置可以适合 ControlNet 图像。

    画布宽度 和 画布高度 提供手动创建绘图或草图以,不上传任何图像(最好使用 Scribble 预处理器以获得良好的输出)。它会调整空白画布的大小来进行绘制,不会影响上传的原始图像。

    预览图片处理结果:能够快速查看选择的预处理器是如何将上传的图像或绘图转换为 ControlNet 的检测图。对在渲染输出图像之前尝试各种预处理器有用,可节省我们的时间。

    隐藏处理结果:删除预览图像。

    预处理器和模型是 ControlNet 的主要选项。

    预处理器:用于对输入图像进行预处理,例如检测边缘、深度和法线贴图。None 使用输入图像作为控制图。 根据所需的输出,用户可以选择相应的控制方法。

    模型:如果您选择了预处理器,您通常会选择相应的模型。但是它并不限制你混合和匹配所有的预处理器和模型,但是混合多了就会产生负面效果,所以最好使用更加匹配的模型并且越少越好。ControlNet 模型与在 AUTOMATIC1111 GUI 顶部选择的稳定扩散模型一起使用。

    五、预处理器 下面我们介绍几个常用的 ControlNet,并在下面举例说明如何使用它。

    1. Canny 边缘检测

    Canny 通过使用边缘检测器创建高对比度区域的轮廓来检测输入图像。线条可以捕捉到非常详细的信息,但如果你的图像背景中有一些物体,它很可能会检测到不需要的物体。所以背景中物体越少效果越好。用于此预处理器的最佳模型是 control_sd15_canny。

    2. Depth & Depth Leres

    这个预处理器有助于生成输入图像的深度估计。深度通常用于控制图像内物体的空间定位。浅色区域意味着它离用户更近,而深色区域则离用户更远。

    在大图像时它可能会丢失图像内部的细节(面部表情等)。一般会与 control_sd15_depth 模型组合使用。Midas Resolution 函数用于增加或减少 detectmap 中的大小和细节级别。它的级别越高,将使用更多的 VRAM,但可以生成更高质量的图像,反之亦然。

    Depth Leres 有与 Depth 相同的基本概念,但在地图中包含更广泛的范围。但有时它会从图片中捕获了太多信息,可能会生成与原始图像略有不同的图像。所以最好先试用两种预处理器,然后决定哪一种。

    3. HED (Holistically-Nested Edge Detection)

    Hed 可以在物体周围创建清晰和精细的边界,输出类似于 Canny,但减少了噪声和更柔软的边缘。它的有效性在于能够捕捉复杂的细节和轮廓,同时保留细节特征(面部表情、头发、手指等)。Hed 预处理器可用于修改图像的风格和颜色。用于此预处理器的最佳模型是 control_sd15_hed。

    4. MLSD ( Mobile Line Segment Detection)

    MLSD Preprocessor 最适合生成强有力的线条,这些线条能够检测出需要独特和刚性轮廓的建筑和其他人造作品。但是它不适用于处理非刚性或弯曲的物体。MLSD 适用于生成室内布局或建筑结构,因为它可以突出直线和边缘。用于此预处理器的最佳模型是 control_sd15_mlsd。

    5. Normal map

    法线图使用了三种主要颜色(红、绿、蓝),通过不同的角度来精确定位物体的粗糙度和光滑程度。它生成法线图的基本估计,可以保留相当多的细节,但可能会产生意想不到的结果,因为法线图完全来自图像,而不是在 3D 建模软件中构建的。

    法线图有利于突出复杂的细节和轮廓,并且在定位对象方面也很有效,特别是在接近度和距离方面。“Normal Background Threshold”用于调整背景成分。设置一个更高的阈值可以移除背景的远处部分(将其混合成紫色)。降低阈值将命令 AI 保留甚至显示额外的背景元素。用于此预处理器的最佳模型是 control_sd15_normal。

    6. OpenPose

    这个预处理器生成了一个基本的骨骼火柴人形象。这种技术被广泛采用,因为多个 OpenPose 骨架可以组合成一个图像,这有助于引导稳定扩散生成多个一致的主题。骨架图有很多关节点,每个点代表如下图所示。

    7. Scribble

    涂鸦的目的是从简单的黑白线条画和草图生成图像。用户也可以使用“Canvas”选项创建特定大小的空白画布,用于手动素描(也可以直接上传图像)。如果草图和绘图由白色背景上的黑线组成,则需要选中“Invert Input Color”复选框。用于这个预处理器的最佳模型是 control_sd15_openpose。

    8. Segmentation

    分割预处理器检测并将上传的图像分割为同一图像内的段或区域。该模型在生成一组新的图像时,将 detectmap 图像应用于文本提示。用于此预处理器的最佳模型是 control_sd15_seg。

    附录:预处理器与对应模型清单

    总结 使用 AI 绘图工具 Stable Diffusion 确实能提高美术工作者的生产效率,但是请记住:人工智能,没有人工就没有智能。Stable Diffusion 并不是简单易上手的 APP,我们需要花费一定的时间和精力去学习和不断调试,才能使其真正为我们所用,高效产出效果符合需求的图片。

    最后,我为大家简单罗列一下使用 SD 的几项核心能力:

    Github 使用能力,使用者在熟练掌握 Github 开源项目的安装、调参、排错、编程环境设置等技能后,就不会在 SD 报错时六神无主了。 基础出图调试能力,这项能力能够让使用者无需协助就能自行摸索稳定输出可用的图片。 Controlnet 构图能力,基于 Controlnet 的构图控制是美术从业者驾驭 SD 的缰绳,不会用 Controlnet,你只会被随机噪声牵着走。 学习插件并组合使用的能力。 Lora 等小模型的训练能力(进阶)。 如本文对您有帮助,欢迎将其分享给需要的朋友~关注我,接下来会分享更多关于 Stable Diffusion 的进阶内容和商业落地项目。

    站在巨人的肩膀上

    https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis https://muhou.net/document/236688.html https://guide.novelai.dev/guide/prompt-engineering/practice https://zhuanlan.zhihu.com/p/619721909 https://zhuanlan.zhihu.com/p/612572004 https://www.163.com/dy/article/I22IV66G0518R7MO.html https://stable-diffusion-art.com/controlnet/ 欢迎关注作者的微信公众号:生誮果Design

  • 50个保姆级咒语,带你彻底玩转二次元AI绘画神器Niji V5

    UI交互 2023-04-21
    近期 Midjourney 推出了最新的 Niji Version 5,很多用户反馈,在插画和动漫制作方面,niji V5 要比 V4 的作图能力强很多倍。但是也有很多人疑惑,到底什么是 niji?我们应该如何正确玩转 niji?

    近期 Midjourney 推出了最新的 Niji Version 5,很多用户反馈,在插画和动漫制作方面, niji V5 要比 V4 的作图能力强很多倍。

    但是也有很多人疑惑,到底什么是 niji?我们应该如何正确玩转 niji?

    一、什么是 niji niji 全称 nijijourney,是 midjourney 的合作方。

    nijijourney 是 midjourney 和 Spellbrush 合作的一款专门针对二次元的 AI 生成器,在此之前比较火的二次元 AI 生成器除了最近爆火的 novelai,其实还有更早的 waifu,而 Spellbrush 就是 waifu 背后的技术团队。

    基础教程:

    AI绘画进阶!爷爷都能看懂的 Midjourney 教学(附超多实战案例) 近期,职场设计师们应该能看到不少与 AIGC 相关的新闻。

    阅读文章 >

    nijijourney 是 midjourney 和 Spellbrush 合作的一款专门针对二次元的 AI 生成器,它拥有丰富的动漫知识。最特别擅长创建动态和动感十足的镜头,并且非常注重角色和构图。

    在此之前比较火的二次元 AI 生成器除了最近爆火的 novelai,其实还有更早的 waifu,而 Spellbrush 就是 waifu 背后的技术团队。这个 Spellbrush 的团队来自麻省理工,目前,nijijourney 的公司自称要做最好的二次元 AI 生成器

    二、快速添加 niji 机器人 使用 niji 机器人的方法很简单,每次输入关键词之后,在最后加上“--niji 5”即可。

    不过很多小伙伴依然不放心,非要看到 niji 机器人在群里才放心

    那么阿哲在这里就教一个快速简便的方法。其加入方式跟 midjourney 基本一致。

    1. 加入 Discord 的 Mid-Journey Channel

    访问 Midjourney.com 并加入 nijijourney,或者直接跳转到 Midjourney Discord。

    加入网址: https://nijijourney.com/zh/getting-started/

    这一步的前提是,你已经注册了 Discord。

    ps:下载 Discord 软件是免费的,可以用 QQ 邮箱注册为自己的登陆名。

    2. 进入新手频道

    进入 MidJourney 频道。在侧面板上寻找新手频道。你可以查看包括您在内的所有用户创作的作品。同时,你也可以选择任何新手频道并生成艺术品。

    3. 快速生成 AI 作品

    直接使用命令:/imagine

    系统会提示创建你的第一个图像:输入你要创建的图像的文字,你可以输入一般描述或更具体的添加样式和细节

    最后点击回车,等待结果

    示例:/imagine

    笑脸,快乐,小猫,荧光,金属,时尚,笑进彩虹

    smiling face, happy, kitten, fluorescence, metallic, fashion, smiling into the rainbow --niji 5

    4. 等待 nijijourney 给出作品

    niji bot 将生成 4 个作品选项供你选择。

    由于许多用户同时发送命令,你可能需要向上滚动以查找你的作品,所以为了方便查询,我建议你创建一个属于自己的服务器,并将 niji bot 添加至你的服务器。

    该方法和添加 midjourney bot 至你的服务器相同,在此之前添加过 midjourney bot 的小伙伴,应该很快就能上手。

    三、正式开始 首先我们需要先在 Midjourney Discord 中切换到 Niji 模式。切换到 Niji 版本 5

    键入/设置并选择“Niji Version 5”按钮或在提示末尾添加参数——niji 5

    输入/settings,按回车。

    本次涉及的 50 个咒语分类目录:

    1. 背景

    当然,一个好的作品,怎么能少得了惊艳的背景呢,这里是背景的关键词

    关键词:

    宫崎骏风格的纽约街头航拍

    Ariel shot of New York street, Hayao Miyazaki

    也可以尝试以下地方:

    森林旁边的咖啡店,美丽的蓝天和云,新海诚风格

    Coffee shop beside the beach, beautiful blue sky and cloud, Makoto Shinkai

    富士山,美丽的蓝天和云,新海诚

    Mountain fuji, beautiful blue sky and cloud, Makoto Shinkai

    2. 水墨风

    小红书爆款,往往是点赞最高的作品,有浓浓的国风元素

    关键词:

    中国画,园中少女,少女坐在池边,将脚伸入池中,背景有假山、瀑布和小树,精致的脸庞,美丽的眼睛,少女在伸懒腰,少女在 穿着汉服,浅蓝白相间的汉服

    Chinese painting,A girl is in the garden, the girl sits by the pond and puts her feet into the pond, there are rockery and waterfalls and small trees in the background, delicate face, beautiful eyes, the girl is stretching, the girl is wearing Hanfu, light blue and white Hanfu

    水墨 手势画 水粉纸本 持杖女武师 动势

    ink, gesture painting, guache on paper, female martial artist with bo staff, dynamic pose

    3. 艺术家

    创作 Midjourney 动漫角色的时候,最简单的方法之一,就是在你的提示中包含动漫艺术家、漫画艺术家或漫画家的名字。

    比如这些最伟大的艺术家:

    关键词:

    一个穿着传统日本服装的女孩,身后跟着一只龙猫,站在神社前,artgerm,吉卜力工作室

    A girl in traditional japanese clothing, with white chinchilla beside her, standing in front of a a magical torri shrine, artgerm, by Studio Ghibli

    用宫崎骏风格画一群海边的动物,宫崎骏

    A group of animals in the seaside, Hayao Miyazaki

    一群快乐的学生在沙漠里里冒险,美丽的阳光,尾田荣一郎

    A group of happy students taking an adventure in the desert, beautiful sun lighting, Eiichiro Oda

    未来空间站,一群穿着机器人套装的人在处理数据,新海诚

    Futuristic space station, a group of human in robotic suit working on data, Hisashi Hirai

    4. 复古动漫风格

    让我们回到过去。创建复古动漫风格,你需要以下关键词:

    关键词:

    1980 年代的动漫,女孩和男孩在马路上骑机车,复古时尚,柔和的柔和色彩

    1980s anime, girl and a boy riding a motorcycle on the road , retro fashion, muted pastel colors

    1970 年代的动漫,浑身是伤的日本武士跪在竹林中,手里拿着武士刀

    1970s a wounded anime, A Japanese samurai kneeling in a bamboo forest in the early morning with a katana sword in his hand

    1990 年代的动漫,女孩和男孩在游泳池里游泳,复古时尚,柔和的柔和色彩

    1990s anime, girl and a boy swimming in the pool, retro fashion, muted pastel colors

    5. 未来风格

    Niji Mode 掌握了将彩虹折射到透明衣服上的艺术——看起来很神奇!试一试他们的衣服,您一定会印象深刻。

    关键词:

    原宿时尚,未来派时尚,动漫女孩,耳机,彩色反光织物内层,透明 PVC 外套,在东京市中心

    harajuku fasion, futuristic fashion, anime girl, headphone, transparent PVC jacket, in city center

    一个动漫女孩,看着观众,泡泡,高度细致的反光透明虹彩不透明夹克,长长的透明虹彩 RGB 头发

    An anime girl, looking at viewer, bubbles, highly detailed, reflective transparent iridescent opaque jacket, long transparent iridescent RGB hair

    6. 漫画

    漫画是一种起源于日本的流行艺术形式,它区别于不同的画风,流行在中日韩之间。

    关键词

    灌篮高手,漫画屏幕色调,屏幕色调图案,圆点图案,更大和更宽的点间距,高质量

    slam dunk, manga screen tones, screen tone patterns, dot pattern, larger and more widely-spaced dots, High-Quality

    7. 手办

    niji v5 在手办上的效果和 v4 相比简直天差地别,甚至强过 midjourney

    关键词

    拟人化一只超级可爱的粉红色仙女中国狐狸,女孩,狐狸,穿着优雅的斗篷,甜美的笑容,白色的皮毛,明亮的大眼睛,毛茸茸的尾巴,云朵轻轻地飘着,非常详细的 3d 动画,超级逼真,超级详细,豪华电影灯光,

    Octaneendering,zbrush,personification a super cute pink fairychinese fox, girl, fox, wears an elegant cloak, a sweetsmile, white fur, bright big eyes, and a fluffy tail, withclouds floating gently, extremely detailed 3danimation, super lifelike, super detailed, luxurymovie lighting, octaneendering,zbrush

    可爱的小女孩裹着透明塑料,赤壁,荧光半透明运动时尚潮流服装,穿着发光的大迈克鞋,糖果色,简单明亮的背景,3D 玩具,赛博朋克风格,cinema4d,octane 渲染,3d 模型,收藏玩具,粘土人,街头风格, 皮克斯, 大牌鞋, 流行趋势, 特写, 全身

    cute little girl wrapped in transparent plastic, chibi, fluorescent translucent sports fashion trend clothing, wearing big glowing Mike shoes, candy color,simple and bright background, 3D toys, cyberpunk style, cinema4d, octane render, 3d model, collectible toys, Nendoroid, sstreetstyle, Pixar, big shoes, fashion trends, close-up, full body

    8. 角色设计&概念设计

    作为原画师的辅助工具,用 nijijourney 可以大大提高工作效率

    关键词

    游戏中的男性角色,黑绿风格,骑士,流畅的笔触,禅宗灵感,详细的服装,武士刀和和服

    turnaround sheet of lsometric, male character from a game,in the stvle of black and green, knightcore, flowingbrushwork, zen - inspired,detailed costumes,katana and kimono

    藏式首饰图案,动漫人物拿着剑,正视中央的镜头,戴着许多中国藏族风格的珠宝,中国藏族服饰,精致的珠宝,超清晰的细节,特写,风华风格 zhong,史诗般的弯曲镜头,杰作,第一人称独奏,武器设计,中国服装夸张透视齐白石,吴冠中,张克纯,精致的服装细节,与众不同的鼻子,amedee ozenfant,黄士林,深绿松石和浅红色

    Dknolling,knolling of knolling ofChinese Tibetan style jewelry,the animecharacter holding a sword and lookingdirectly at the camera in the center, wearingmany Chinese Tibetan style jewelry, ChineseTibetan costume, exquisite jewelry, ultra clear details,Close-up view, in the style of fenghua zhong,Epicink bending shot,masterpiece, First personsolo, weapon design,Chinese costumeexaggerated perspectiveby Qi Baishi,Wu Guanzhong,Zhang Kechun,exquisite clothing detail, distinctive noses, amedee ozenfant, shilin huang, dark turquoise and light red

    五、最后想说 nijijourney 的出现让 midjourney 有了更多的可能,niji5 相比 niji4 来说进步程度非常大,很大程度上填补了 midjourney 在插画方面的空缺,让生成式 AI 设计有了新的更大的可能性。用户能够使用 Niji 模式快速创建吸引人的动漫角色设计。

    别光收藏不练习,赶紧动手作图吧~

    欢迎关注作者微信公众号:「设计师阿哲」

  • 设计师应该如何拥抱AIGC?来看高手的总结!

    UI交互 2023-04-21
    编者按:ArgoDesign 是一家兼顾设计、产品和咨询一体的跨国设计咨询机构,他们的客户涵盖了包括 IBM、亚马逊、梦工厂和山姆在内的世界知名企业,而这篇文章出自 ArgoDesign 的首席设计师 Guus Baggermans。作为一个大型设计机构的首席设计师,Guus 如今的工作内容是探索 AI 和设计产...

    编者按:ArgoDesign 是一家兼顾设计、产品和咨询一体的跨国设计咨询机构,他们的客户涵盖了包括 IBM、亚马逊、梦工厂和山姆在内的世界知名企业,而 这篇文章出自 ArgoDesign 的首席设计师 Guus Baggermans 。

    作为一个大型设计机构的首席设计师,Guus 如今的工作内容是探索 AI 和设计产品、服务的结合,在负责设计的同时,要探索新技术在产品和服务的应用。通过一系列的测试和体验,Guus 在这篇文章中,非常冷静地阐述了他对于 AI 的看法,优点劣势和 设计师 应对 AI 的姿态,并针对如何创建包含 AI 的产品,提供了有效的建议。

    以下是正文:

    从今年年初开始,咱们就一直在被人工智能的新闻刷屏,你打开新闻网站和社交媒体,是一定会看到大量关于 ChatGPT、Stable Diffusion、Midjourney 和 OpenAI 相关的文章。

    尽管人工智能从 1950 年以来就已经存在,但是最新的人工智能算法将 AI 推到了时代的最前沿。第一台计算机擅长完成重复性的任务,但是需要人借助编程语言和它进行沟通。随着时间的推移,我们开发出了越来越复杂的语言和界面,鼠标、触摸屏和 VUI 都是这个过程中诞生的成果,这使得非程序员也能使用计算机。

    如今,AI 成为了一个特定的分支,被称为 Transformers 的 AI 算法架构塑造了 ChatGPT 这样的工具,类似的 AI 工具也开始在每天的新闻当中铺天盖地地呈现出来。许多基于生成式 AI 的在线工具涌现,而它们的设计却大都显得原始而不够完善。

    AI 带来数不清的新功能 生成式 AI 呈现了不少强大的新功能,这些功能之前之所以无法想象是因为成本太过于高昂,以至于仅仅只出现在某些概念设计中。然而在生成式 AI 的帮助下,它们得以呈现。现在 AI 可以帮助用户进行创造性地创作,在非结构化的数据中发掘信息,回答用户复杂的问题,为每个用户提供真正个性化的体验,甚至可以代表你和他人沟通。 ArgoDesign 也举办了一场精彩的网络研讨会,探讨生成式 AI 对于未来企业的意义。

    边做边想边找答案 我习惯于通过深入实践学习,在学习中理解新概念,塑造能力。在我的工作中,我们将其称之为「边创作边思考」。为了更好地使用 AI,我们举办了内部竞赛,使用生成式 AI 制作电影海报。通过这次练习,我们了解了生成式 AI 的优势和劣势,而这些经验也被我们视作为设计的素材。

    我们使用使用 ChatGPT 等工具来创建电影的名称、剧本甚至影评,然后使用 Midjourney 和 Stable Diffusion 来生成相关的视觉图像。

    通过有趣但足够专业的比赛,来验证工具的可用性,了解其中的差异,我们也逐渐了解到这些工具的运作原理,各自擅长的方面,当然,最重要的还是这些工具所不擅长的是什么。通过这些评估,我们确定,生成式 AI 可以产出可以用来设计的素材。

    这对于设计师意味着什么?

    我得先声明一下 首先,我要做一个简短的声明,文章后续的部分都是建立在这个声明的基础上的。目前,AI 经常会给出我们错误的答案,而且在许多情形下,输出的质量是存疑的。关于 AI 生成的内容在知识产权归属上,即使是法律本身也没有做到完全明确定义,相关的议题依然处于广泛的争论当中,对于 AI 生成的素材对于当今社会的影响无疑是巨大的,并且其中还存在许多伦理道德层面的问题。

    和任何新技术一样,AI 生成用户体验的最佳实践还有待定义。接下来,我们将继续探讨几个成熟的议题。

    可发现性的设计 AIGC 的技术确实是新鲜事物,绝大多数人其实还不明白它能做什么,只是感知上确实感觉有无穷的可能性。总结文本主题,重写内容,在数据中寻找重复的模式,甚至创建一个不存在的小狗的插画,让它戴着棒球帽,踩着滑板。

    ChatGPT 能做很多令人难以置信的事情,但是 OpenAI 并没有提供功能文档,所以是有必要帮助用户来先发觉这些功能,并且让用户了解它们,并且快速访问重要的功能和内容。这就是为什么像 Github 这样得网站上,供用户学习各种 Prompt 得内容会爆炸性地增长。本质上,用户们正在为 OpenAI 编写文档,并且互相分享。

    Midjourney 生成的图片素材更有用,最重要的是 Midjourney 在它的服务当中内嵌了分享功能,用户每生成一套图片,这些图片就会被添加到一个目录当中,用户可以通过这个目录查看生成的图片素材,以及相应的 Prompt,这样一来,用户可以互相学习,无需从头开始。

    Google 则更进了一步,在 Google Workspace 中,将文本的编辑简化为几种易于访问的按钮,这种方式降低了用户编写 Prompt 的复杂操作,用户无需使用「请为我总结这段文字」而是直接点击「Shorten」按钮即可实现功能。

    要点:如果你正在设计 AI 相关的产品,那么一定要向用户介绍甚至演示你们做了什么,让用户知道、了解你的 AI 产品的功能,并帮助用户更好使用它们。

    协助用户在「可能性迷宫」中导航 生成式 AI 可以在短时间内创建大量的内容,以 15 种不同的方式重现编写同一个段落很容易,生成一张图片的 30 个变体也很容易,但是如何帮助用户选择最好、最合适的变体呢?那么在以信息流作为主要成呈现形态的界面当中,如何让更好的那一个从中脱颖而出呢?

    ChatGPT 会为不同的对话自动命名

    ChatGPT 的聊天式界面风格让你可以和 AI 进行「多轮对话」,而已经完成的对话,ChatGPT 会对它的内容进行命名,这些命名能够帮你更快定位。尽管这种方式很酷,但是依然有缺陷,如果你的目标是希望 AI 帮你重写文章的话,那么这个对话当中,你会看到长篇大论的内容,量非常大,那么这种聊天界面可能并不是最理想的载体。

    Midjourney 其实也存在类似的问题,它唯一的交互界面是借由 Disord 而存在,用户必须将聊天机器人加入到自己的服务器之后,才能在 Discord 中发送 Prompt ,然后 AI 才能在其中做出响应,生成你要的图片。

    幸运的是,呈现多个项目的合集,并不是个新的 UI 设计的问题,你可以在 Adobe Lightroom 中找到一个颇为值得借鉴的案例。Adobe 在管理大型摄影项目的时候,有个不错的归档界面,它内置了一套机制,可以帮你更好的过滤、排序、评级、对比不同的照片,如果你需要为你的 AI 产品创建生成内容对比的界面,可以参考这种设计思路。

    要点:如果你的 AI 应用可以低成本生成大量内容,那么它也要具备帮助用户管理和跟踪各种变体的功能。

    培养怀疑精神 & 允许被审视 生成式 AI 擅长输出内容,但是并不擅长呈现输出内容背后的逻辑和原理。当你要求生成式 AI 回答问题的时候,它能给你一个相对完备且信心十足的答案,即使这个答案可能完全是幻觉,甚至并非基于现实。这种错误或者虚幻的结果是现在 AI 生成的副产物,很难预防。那么在设计 AI 类的工具的时候,我们要如何应对呢?

    下面的案例来自 Google 的 Bard LLM,这 Bard 针对用户提出的问题给予了一个回答。用户的问题是每年12月当中,除了1月和2月之外,还有哪些月份,而 Bard 的回答则将 12 个月又重新罗列了一遍,这是一个显而易见的逻辑错误。Bard 并没有给出答案的出处或者生成的缘由,这也使得错误仅仅只是一个错误,而这个答案在这个地方似乎也没有后续探究、改进的可能。

    而一个显而易见的解决方法,就是 LLM 模型将自己获取信息的来源罗列出来,方便用户根据这些来源来验证 AI 所给出的答案。而微软的 New Bing 在这一点上则做的好很多,在 Bing 给出的答案的底部,都能看到这些答案的来源,用户可以点击来源链接深入挖掘答案所涉及的页面。

    另外,可以从这些来源当中提取另外一个数据,就是「可信度评分」,许多机器学习的算法会对 AI 所提供的答案进行评分,下面是 OpenAI 的 Whisper 的截图,这是一种可以将音频内容转录为文本的工具,而它重要的特性在于,它会将所转录出的结果的「可信度评分」直接使用可视化的色彩标识出来,用户可以直观地看到那些内容准确度可信度更高,可以将低可信度的内容排除在外。

    要点:在创建 AI 生成工具或者使用 AI 生成内容的时候,请确保为用户提供工具来验证生成的结果和答案。 AI 并不总是正确的,你的用户理应知道答案是从哪里来的。

    考虑法律和道德的影响 权利越大,相应的法律责任和道德责任就越大!在将生成式 AI 应用到你的程序或者服务中之前,请认真考虑下列问题:

    你所使用的 AI 算法是否存在偏差? 数据集通常是存在偏差的。当你让 Midjourney 生成专业人士的图片时,它确实更偏爱生成男性为主体的图像。我们还能在数据集中找到很多类似的问题。

    你是否正在处理敏感或者私人的信息? 绝大多数的生成式 AI 都是透过 API 在云服务中运行的。从本质上来说,你如果想要使用这些 AI 服务,就意味着你需要将你的信息发送到另外一个公司的网络服务器上,在这些情况下,你最好检查一下你发送的内容和数据是否敏感,以及你的用户是否清楚你并非他们数据唯一的接受方(三星员工曾经为了获得答案在 ChatGPT 中上传了公司的敏感资料)。

    以ChatGPT 为例,他们的隐私政策明确地规定(2023年3月14日更新),他们可以使用用户所提供的个人数据来作为 ChatGPT 的训练数据,而这种和欧洲隐私法(GDPR)相冲突,并且这直接导致意大利直接禁止使用 ChatGPT。

    无论如何,当你想要在产品当中使用 AI 服务的时候,请务必检查隐私政策,查看它们是否符合当地的法律法规。

    生成的内容知识产权对你的 APP 重要吗? 现在关于生成式 AI 输出内容的知识产权归属的争论非常的激烈。现在相关的法律法规还不完善,但是根据现在已有不少相关的案件在进行中,这些案件的判决结果将会为后续法律法规的定调。

    早期比较著名的案件是漫画 Zarya 的版权归属,在这个案件中,美国版权局认定不对 AI 生成的图像进行版权保护。

    最近,美国版权局给出了一个更加细致的指南,指出如果内容仅仅是借助 Prompt 引导 AI 生成,且后续并没有进行调整和设计,那么它将不会获得版权保护。你可以沿着这个思路推导下去,下一个问题可能是,有多少人参与才算有效等等。我相信类似的争论还会持续很久。

    要点:你需要问问自己「我是否站在用户这边?」,请记住,目前所有的情况一直在发生变化,并且持续相当长的一段时间。当你在向产品中添加 AI 的时候,请想清楚这一点,因为你可能之后要一直调整策略和状态。

    最后记住3点 请记住,设计师应该专精设计,如今计算机可以生成以往设计师手工创建的事物,那么就让人工智能成为辅助你、驱动你走得更远的助力。 请记住,生而为人应该洞悉人性,电脑能够生成一堆东西,但是只有你能看出哪些更有价值,哪些东西对人更有意义,而不是反过来。 请记住,亲身尝试,在实践中思考!

    提高3倍效率!能落地的AI绘画&设计系统课来了! 如何快速入门AI绘画和AI设计?

    阅读文章 >

  • 5500字干货!帮你快速全面掌握导航组件的使用和设计

    UI交互 2023-04-21
    精心设计的导航可以帮助用户更快地学习你的产品,知道该做什么,去哪里。更多导航设计干货:用一个实战案例,帮你学会优化顶部导航设计网站顶部导航栏,通常称为 header,是用户进入网站后最先看到的地方,决定着用户对网页的第一印象,其重要性不言而喻,顶部导航被广泛应用在各个领域的网站当中,这类导航可以一目了然的让用户迅...

    精心设计的导航可以帮助用户更快地学习你的产品,知道该做什么,去哪里。

    更多 导航设计 干货:

    用一个实战案例,帮你学会优化顶部导航设计 网站顶部导航栏,通常称为 header,是用户进入网站后最先看到的地方,决定着用户对网页的第一印象,其重要性不言而喻,顶部导航被广泛应用在各个领域的网站当中,这类导航可以一目了然的让用户迅速寻找到所需要的目标。

    阅读文章 >

    导航可以帮助用户了解他们所处的信息空间:

    例如:当前页面有哪些信息和功能可以使用,信息和功能的结构是什么样的,我现在在哪里?我可以去哪里?我从哪里来,如何回去。

    路标可以帮助用户了解周围环境:

    例如:告知用户当前在哪里,下一步能去哪里。帮助用户保持“发现”,并计划用户的下一步。路标包括页面标题、面包屑、选项卡、步骤条、分页条等。

    常见的导航模式:

    你的网站使用的导航模式是什么样的?换句话说,不同的页面、功能是怎么相互连接的,用户又是怎么在这些页面与功能之间交互的?

    在介绍模式前,先看下常见的导航类型:

    一、全局导航 全局导航是指它可以覆盖整个产品路径,往往表现为产品的一级分类。几乎总是显示在网页的顶部或左侧,有时两者都显示(称为倒 L 导航布局),它可以快速带领用户从一个页面到达另一个页面。

    例如:华为云的顶部与 ones 的左侧导航。

    二、实用导航 通常情况下,实用工具导航都隐藏在功能图标或文字后面,用户必须单击打开它。 例如:当网站的访问者是登录状态时,该网站可能会在其右上角提供一组实用工具导航链接。用户倾向于在那里寻找与用户设置相关的工具:帐户设置、用户个人资料、帮助、退出等。

    三、内嵌导航 它们都是在页面内容中或附近的链接。当用户阅读内容或与功能点交互时,这些链接提供了相关的选项。

    例如:青云云服务器页面中“文字链接”。

    四、相关内容导航 关联导航的一种常见形式是“相关文章”。新闻类产品经常使用这种方法。

    例如:优设,当用户阅读一篇文章时,右侧栏或页脚会显示类似主题文章或由同一作者撰写的其他文章。

    五、标签导航 通过用户定义或系统定义,链接相关内容的一种方式。特别是在内容数量非常大的情况下。

    例如:语雀小记标签导航,可以快速链接到对应标签下的内容。

    六、再来看几种常用的导航设计模式 1. 清晰入口点

    它是什么:

    只显示界面中的几个主要入口点,以便用户知道从哪里开始。对于首次使用和不频繁使用的用户,可以降低学习成本,使用户以任务为导向。

    什么时候使用:

    如果你正在设计一个新产品,可以使用这个模式,因为用户也是新的。他们都是通过阅读一小段介绍性文字,再开始进行某个任务。 当你的产品大部分用户都已经很熟悉了,最好就不要使用了,因为会导致用户很烦。

    例如:钉钉引导帮助功能。

    为什么使用:

    一个新产品在用户面前就像一片信息泥潭,大量的页面、不熟悉的术语和用词。对于用户来说,这样的产品如果没有提供清晰的起点,用户是很难上手使用。

    如何使用:

    当用户首次使用产品时,把这些入口点当作进入内容的“大门”。利用这些入口点,逐步引导用户使用,直到用户可以自己使用为止。 这些入口点应该涵盖“人们为什么来到这里”的主要理由。可以只有一个或多个入口点,这取决哪种方式更适合你的设计。视觉效果上,要根据它们的重要程度来显示这些入口。

    例如:苹果的 iPad 主页面只做几件事:展示产品,让 iPad 看起来很吸引人,并引导用户获得购买或学习更多信息的资源。与强大、明确的入口点相比,顶部全局导航在视觉上相对较弱。

    2. 菜单页

    它是什么:

    整个页面都是跳转链接,在每个链接上清晰展示对应信息,帮助用户选择。

    什么时候用:

    你正在设计一个页面,其目的是要成为一个“目录”,以显示用户可以从这里去哪里。用户可能不希望有其他内容干扰,只提供链接就行。这个模式在移动端使用非常多,因为手机屏幕小,需要有效的利用。

    为什么使用:

    没有任何干扰,用户可以把注意力集中在菜单上。因为整个页面都是菜单目录,用户不被其它内容干扰,使用效率更高。

    如何使用:

    菜单页适用于大面积展示的页面,菜单名应该简短、利于理解。如果是移动端,目标对象要大点,方便触摸。 有时这些链接会比较多,需要对它们进行分类或按照某种规则进行排序。必要时可以加上搜索框。 例如:58 同城首页

    3. 金字塔

    它是什么:

    使用上一步、下一步将一系列页面关联在一起。这些页面都有一个共同的父级页面,用户在子页面中可以按顺序或随机查看。

    什么时候使用:

    网站上有一系列的页面,用户想看完一个再看另外一个,有些用户可能会一个个查看或跳跃查看,不过他们最开始需要从一个列表中进行选择。

    为什么使用:

    这个模式减少了用户访问各个页面时,所要的的单击次数。提高了导航效率,同时也表达了一种更加顺序性的关系。

    如何使用:

    把所有页面或元素按顺序在父级页面上列出来,并采用合理的排列形式(网格、列表), 在每个具体的子页面上,加上上一步(后退)、下一步(前进)、返回(关闭)的按钮。 金字塔模式虽然是一个循环列表,但有时候用户并不知道自己已经回到了第一页。你可以把最后一页链接到父页面,这样就告诉了用户你已经看完了所以内容。

    例如:脸书相册和 teambition 需求页面都是典型的金字塔案例。 脸书相册通过父级页面,可以看到整个相册,选择一张照片将打开幻灯片。照片可以向右、向左切换,或再次退出到父级页面,这些都是导航选项。

    teambition 选择一个任务后,会弹出层,在层上可以进行“上一条”、“下一条”切换。

    4. 模态面板

    它是什么:

    只显示一个页面,在用户没完成当前任务前,没有任何导航可选择。

    什么时候使用:

    你想让页面处在一种没有用户输入就无法继续前进的状态里。

    为什么使用:

    模态对话框切断了用户选择其他导航的路,用户也不能丢下当前页面不管,必须处理完当前问题后才能回到之前位置做其它事。 这是一个很容易理解和使用的模型,只是经常被拿来滥用。如果用户还没准备好回答模态面板的问题,就打断了用户工作流,可能会使用户随意做出决定。应用得当时,会提高用户的决策效率,因为没其他导航来分散注意力。

    如何使用:

    在当前页面,用户可以注意到的地方,放置一个按钮。提供按钮请求所需要的的弹框,它能阻止用户打开其它页面。要保证这个页面很简洁,不会影响用户注意力。 而且出口不能有很多,一般只有 1-3 个,保存、取消等。通过这些按钮用户可以快速回到之前页面。

    例如:Airbnb 使用了一个弹窗来引导用户登录。弹窗中只能进行:登录,注册,或者点击左上角的“关闭”按钮。

    5. 深度链接

    它是什么:

    把一个网站的当前状态,利用一个超链接地址 (URL) 捕捉下来,这个状态可以保存,或者发送给其他人。当再次打开这个地址时,它将恢复到用户捕捉时的状态。

    什么时候使用:

    如果网站内容、交互比较多,例如:视频应用、阅读应用,有时候某种特定位置不容易找到,或者需要多个步骤才能到达,又或者有很多用户可以自定义参数,这些都会增加找到特定状态的复杂性。

    为什么使用:

    深度链接可以让用户直接跳到一个期望的地方,从而节约时间和精力。

    如何使用:

    把用户当前内容中的位置记录下来,并把它保存成一个 URL。同时也记录支持性数据(评论、标记、数据层等),当重新打开这个地址,会回到原来状态。

    例如:在 YouTube 上分享视频最好的方法之一是:在分享链接中嵌入捕捉的点(如图)。收件人点击链接,视频播放将从捕捉这里开始,而不是从头开始播放。

    6. 逃生出口

    它是什么:

    在没有导航的页面上,放置一个按钮或链接,让用户能快速离开这个页面,回到熟悉的地方。

    什么时候使用:

    当某些页面把用户锁定在一个导航受限的情形下时,例如:搜索结果页、详情页等。

    例如:teambition 创建项目,点击进去后全局导航就消失了,只能通过右上角的关闭回去。

    为什么使用:

    页面受到导航限制,如果不为用户提供一种简单、明显的逃离通道,用户就无法向下探索,这也是安全探索的一种形式。

    如何使用:

    把一个按钮或链接放在页面上,用户通过这个按钮回到安全区域(之前页面)。

    例如:领英的设置页面,这个页面属于独立页面,没有全局导航。如果用户来到这里,有两种方法返回,第一个点击 logo 回到主页;第二个是点击“Back to LinkedIn.com”链接。

    7. 宽菜单

    它是什么:

    在下拉菜单里,显示一个长长的导航列表。用这种方式,展示一级菜单下所有子页面。 需要组织好它们,并设置易于阅读的分类名或排列顺序,依次横向展开。 什么时候使用:

    如果网站有很多分类,分类下有很多页面,可能有 3 个以上层级结构。你希望把这些页面入口都展示给用户,让他们随机探索,以便让他们看到更多的选择。

    为什么使用:

    宽菜单可以让,一个复杂网站的可发现性更好,与让用户慢慢摸索相比,它能展示更多的导航选择。

    如何使用:

    在每个一级菜单下,提供一列精心组织的链接,把它们进行分组归类,带上分组标题。 视觉上注意风格和样式上与整个网站协调一致,注意配色方案、栅格布局等问题。

    例如:华为和微软的产品宽菜单。(如图)。

    8. 网站地图页脚

    它是什么:

    把一个站点地图放到每个页面下面,把它当全局导航的一部分,作为对头部的补充。

    什么时候使用:

    可能在页头会有一份全局导航菜单,但是不能在这里显示出网站所有的层次结构。 你希望使用一份简单、良好布局的页脚,又不想使用胖菜单模式,因为网站地图实现起来更简单。

    为什么使用:

    站点地图页脚模式能让一个复杂网站的可发现性变得更好。它们为访问者们提供了更多的导航选择。 当访问者到达页面底部的时候,页脚就是他的注意力所在,通过在这里放置一些有意思的链接,能让用户在这里停留的时间更长,也能发现更多内容。

    如何使用:

    设计一个和页面宽度相同的页脚,把网站的主要栏目和最重要的子栏目都包括进来(包括:导航、语言选择、社交链接、版权和隐私声明等)。 这样可能形成一份完整的站点地图,重点是要覆盖访问者需要寻找的内容,同时又不会增加页头和侧栏的导航负担。 例如:Salesforce 使用其站点地图来体现客户感兴趣的三个区域(如图)。

    9. 步骤条

    它是什么:

    在步骤过程中的每一个页面上,都显示步骤状态,包括“你在这里”的指示状态。

    什么时候使用:

    你设计了一个用户可以一页接一页访问的文档、处理过程、向导或其他类似内容。用户的访问路径主要是线性的。

    为什么使用:

    步骤条可以在以下几个方面帮助用户:他可以看到已经完成的步骤,以及当前的位置 ,接下来还有多少步骤要进行。知道这些信息可以让用户决定是否继续,估算还需要多少时间。

    如何使用:

    在页面上放置一个步骤条(多于 2 步时使用, 建议不超过 5 步)。如果可以,把它们放在一条线上,或者一个表格的一列上,在视觉上不要和页面的实际内容竞争。 给步骤条的状态进行特别处理,例如:用浅一些或深一些的颜色来标记它,然后对已经访问过的页面进行另一种标记。 如果这些页面或步骤上有数字编号,那么明确使用这些数字编号,它们简短而又容易理解。 同时也应该把页面的标题放到地图上。如果标题很长,可能会让地图非常冗长,尽量缩短这些标题,这样可以让用户得到足够的信息。

    例如:B&H(如图)顶部的结账流程步骤条。

    10. 面包屑

    它是什么:

    面包屑是一种特定类型的导航,它显示了从开始到结束的导航层次、路径。

    什么时候使用:

    你的网站有超过两级以上的层级结构。用户将通过直接导航、浏览、过滤、搜索等方式在这棵树中上下移动,或者直接从别的地方进入一个深度链接。因为层级太深或层级结构太复杂,全局导航不足以显示“你在这里”的位置标记。

    为什么使用:

    面包屑层级结构显示了,到达当前页面的每一层链接,从应用的顶端一直向下。从某种意义上说,它显示的是整个网站的一个线性切片,从而避免了显示整个地图的复杂性。 就像步骤条一样,面包屑层级结构帮助用户得知他当前的位置。不过,与序列地图不一样的是,面包屑层级结构,不会告诉用户接下来要去哪里,也不会告诉他刚才是从哪里来的,它只关心现在。

    如何使用:

    在页面的顶部,放置一行文本或图标来表示页面在当前层级结构中的位置。从上级开始,在上级的右边,放置下一级,然后一直往下直到当前页面。在这些层级之间,放一个图标或文本字符一一通常是向右的箭头、小三角、大于号 (>)、斜杠 (/) 或右侧双角引号 (》),来表示从一级往下一级移动的方向。 有一些面包屑层级结构的设计,会把当前页面的标题,显示在层级结构的最后。如果你要这么做,可以让它的外观和前面显示的层次有所区别,因为它们不是链接。

    例如:三星官网大量使用面包屑导航,侧面反映了面包屑在大型产品中的广泛使用。

    11. 注释滚动条

    它是什么:

    让滚动条在滚动的同时,还可以作为一种内容的映射机制,或者作为一个位置指示器。

    什么时候使用:

    你建立了一个以文档为中心的网站,用户会浏览这个网站来查看一些注释,但在快速滚动的时候难以记住当前的位置。

    为什么使用:

    当页面快速滚动时,很难阅读飞驰而过的文字内容,因此有必要使用一些其他的位置指示器。为什么是在滚动条上?因为它是用户当前的注意力所在。

    如何使用:

    把位置指示器放在滚动条上,或靠近滚动条的位置。不管动态的指示器还是静态的指示器都可以,静态指示器指的是不会随时间变化的指示器,例如:在滚动条轨迹上的颜色块。 动态指示器将在用户滚动的时候改变内容,它们通常以工具提示的形式来实现。当滚动位置发生变化的时候,滚动块旁边的工具提示显示和内容有关的信息。

    例如:Word 滚动时动态显示当前页码。

    不管是动态指示器还是静态指示器,你都需要弄清楚用户最可能在寻找什么,从而找出你需要把什么放到注释里。 内容结构是一个很好的起点,如果内容是代码,你可能需要显示当前功能或方法的名字;如果是 一份电子数据表,你可能需要显示行号等等。

    例如:Chrome 用搜索结果注释其滚动条(如图)。当你在网页上搜索一个单词时,Chrome 会用颜色突出定位到的单词,并在滚动栏中放置一个黄色指示符。这样,用户就可以直接滚动到文档中的这些点。

    总结 精心设计的导航可以帮助用户更快地学习你的产品,知道该做什么,去哪里。不会困惑、迷失方向。导航也是产品生命周期中最长的功能之一,如果设计得好,它将具有“常青”价值。

    谢谢观看!

  • 50个保姆级咒语,带你彻底玩转二次元AI绘画神器Niji V5

    UI交互 2023-04-21
    近期 Midjourney 推出了最新的 Niji Version 5,很多用户反馈,在插画和动漫制作方面,niji V5 要比 V4 的作图能力强很多倍。但是也有很多人疑惑,到底什么是 niji?我们应该如何正确玩转 niji?

    近期 Midjourney 推出了最新的 Niji Version 5,很多用户反馈,在插画和动漫制作方面, niji V5 要比 V4 的作图能力强很多倍。

    但是也有很多人疑惑,到底什么是 niji?我们应该如何正确玩转 niji?

    一、什么是 niji niji 全称 nijijourney,是 midjourney 的合作方。

    nijijourney 是 midjourney 和 Spellbrush 合作的一款专门针对二次元的 AI 生成器,在此之前比较火的二次元 AI 生成器除了最近爆火的 novelai,其实还有更早的 waifu,而 Spellbrush 就是 waifu 背后的技术团队。

    基础教程:

    AI绘画进阶!爷爷都能看懂的 Midjourney 教学(附超多实战案例) 近期,职场设计师们应该能看到不少与 AIGC 相关的新闻。

    阅读文章 >

    nijijourney 是 midjourney 和 Spellbrush 合作的一款专门针对二次元的 AI 生成器,它拥有丰富的动漫知识。最特别擅长创建动态和动感十足的镜头,并且非常注重角色和构图。

    在此之前比较火的二次元 AI 生成器除了最近爆火的 novelai,其实还有更早的 waifu,而 Spellbrush 就是 waifu 背后的技术团队。这个 Spellbrush 的团队来自麻省理工,目前,nijijourney 的公司自称要做最好的二次元 AI 生成器

    二、快速添加 niji 机器人 使用 niji 机器人的方法很简单,每次输入关键词之后,在最后加上“--niji 5”即可。

    不过很多小伙伴依然不放心,非要看到 niji 机器人在群里才放心

    那么阿哲在这里就教一个快速简便的方法。其加入方式跟 midjourney 基本一致。

    1. 加入 Discord 的 Mid-Journey Channel

    访问 Midjourney.com 并加入 nijijourney,或者直接跳转到 Midjourney Discord。

    加入网址: https://nijijourney.com/zh/getting-started/

    这一步的前提是,你已经注册了 Discord。

    ps:下载 Discord 软件是免费的,可以用 QQ 邮箱注册为自己的登陆名。

    2. 进入新手频道

    进入 MidJourney 频道。在侧面板上寻找新手频道。你可以查看包括您在内的所有用户创作的作品。同时,你也可以选择任何新手频道并生成艺术品。

    3. 快速生成 AI 作品

    直接使用命令:/imagine

    系统会提示创建你的第一个图像:输入你要创建的图像的文字,你可以输入一般描述或更具体的添加样式和细节

    最后点击回车,等待结果

    示例:/imagine

    笑脸,快乐,小猫,荧光,金属,时尚,笑进彩虹

    smiling face, happy, kitten, fluorescence, metallic, fashion, smiling into the rainbow --niji 5

    4. 等待 nijijourney 给出作品

    niji bot 将生成 4 个作品选项供你选择。

    由于许多用户同时发送命令,你可能需要向上滚动以查找你的作品,所以为了方便查询,我建议你创建一个属于自己的服务器,并将 niji bot 添加至你的服务器。

    该方法和添加 midjourney bot 至你的服务器相同,在此之前添加过 midjourney bot 的小伙伴,应该很快就能上手。

    三、正式开始 首先我们需要先在 Midjourney Discord 中切换到 Niji 模式。切换到 Niji 版本 5

    键入/设置并选择“Niji Version 5”按钮或在提示末尾添加参数——niji 5

    输入/settings,按回车。

    本次涉及的 50 个咒语分类目录:

    1. 背景

    当然,一个好的作品,怎么能少得了惊艳的背景呢,这里是背景的关键词

    关键词:

    宫崎骏风格的纽约街头航拍

    Ariel shot of New York street, Hayao Miyazaki

    也可以尝试以下地方:

    森林旁边的咖啡店,美丽的蓝天和云,新海诚风格

    Coffee shop beside the beach, beautiful blue sky and cloud, Makoto Shinkai

    富士山,美丽的蓝天和云,新海诚

    Mountain fuji, beautiful blue sky and cloud, Makoto Shinkai

    2. 水墨风

    小红书爆款,往往是点赞最高的作品,有浓浓的国风元素

    关键词:

    中国画,园中少女,少女坐在池边,将脚伸入池中,背景有假山、瀑布和小树,精致的脸庞,美丽的眼睛,少女在伸懒腰,少女在 穿着汉服,浅蓝白相间的汉服

    Chinese painting,A girl is in the garden, the girl sits by the pond and puts her feet into the pond, there are rockery and waterfalls and small trees in the background, delicate face, beautiful eyes, the girl is stretching, the girl is wearing Hanfu, light blue and white Hanfu

    水墨 手势画 水粉纸本 持杖女武师 动势

    ink, gesture painting, guache on paper, female martial artist with bo staff, dynamic pose

    3. 艺术家

    创作 Midjourney 动漫角色的时候,最简单的方法之一,就是在你的提示中包含动漫艺术家、漫画艺术家或漫画家的名字。

    比如这些最伟大的艺术家:

    关键词:

    一个穿着传统日本服装的女孩,身后跟着一只龙猫,站在神社前,artgerm,吉卜力工作室

    A girl in traditional japanese clothing, with white chinchilla beside her, standing in front of a a magical torri shrine, artgerm, by Studio Ghibli

    用宫崎骏风格画一群海边的动物,宫崎骏

    A group of animals in the seaside, Hayao Miyazaki

    一群快乐的学生在沙漠里里冒险,美丽的阳光,尾田荣一郎

    A group of happy students taking an adventure in the desert, beautiful sun lighting, Eiichiro Oda

    未来空间站,一群穿着机器人套装的人在处理数据,新海诚

    Futuristic space station, a group of human in robotic suit working on data, Hisashi Hirai

    4. 复古动漫风格

    让我们回到过去。创建复古动漫风格,你需要以下关键词:

    关键词:

    1980 年代的动漫,女孩和男孩在马路上骑机车,复古时尚,柔和的柔和色彩

    1980s anime, girl and a boy riding a motorcycle on the road , retro fashion, muted pastel colors

    1970 年代的动漫,浑身是伤的日本武士跪在竹林中,手里拿着武士刀

    1970s a wounded anime, A Japanese samurai kneeling in a bamboo forest in the early morning with a katana sword in his hand

    1990 年代的动漫,女孩和男孩在游泳池里游泳,复古时尚,柔和的柔和色彩

    1990s anime, girl and a boy swimming in the pool, retro fashion, muted pastel colors

    5. 未来风格

    Niji Mode 掌握了将彩虹折射到透明衣服上的艺术——看起来很神奇!试一试他们的衣服,您一定会印象深刻。

    关键词:

    原宿时尚,未来派时尚,动漫女孩,耳机,彩色反光织物内层,透明 PVC 外套,在东京市中心

    harajuku fasion, futuristic fashion, anime girl, headphone, transparent PVC jacket, in city center

    一个动漫女孩,看着观众,泡泡,高度细致的反光透明虹彩不透明夹克,长长的透明虹彩 RGB 头发

    An anime girl, looking at viewer, bubbles, highly detailed, reflective transparent iridescent opaque jacket, long transparent iridescent RGB hair

    6. 漫画

    漫画是一种起源于日本的流行艺术形式,它区别于不同的画风,流行在中日韩之间。

    关键词

    灌篮高手,漫画屏幕色调,屏幕色调图案,圆点图案,更大和更宽的点间距,高质量

    slam dunk, manga screen tones, screen tone patterns, dot pattern, larger and more widely-spaced dots, High-Quality

    7. 手办

    niji v5 在手办上的效果和 v4 相比简直天差地别,甚至强过 midjourney

    关键词

    拟人化一只超级可爱的粉红色仙女中国狐狸,女孩,狐狸,穿着优雅的斗篷,甜美的笑容,白色的皮毛,明亮的大眼睛,毛茸茸的尾巴,云朵轻轻地飘着,非常详细的 3d 动画,超级逼真,超级详细,豪华电影灯光,

    Octaneendering,zbrush,personification a super cute pink fairychinese fox, girl, fox, wears an elegant cloak, a sweetsmile, white fur, bright big eyes, and a fluffy tail, withclouds floating gently, extremely detailed 3danimation, super lifelike, super detailed, luxurymovie lighting, octaneendering,zbrush

    可爱的小女孩裹着透明塑料,赤壁,荧光半透明运动时尚潮流服装,穿着发光的大迈克鞋,糖果色,简单明亮的背景,3D 玩具,赛博朋克风格,cinema4d,octane 渲染,3d 模型,收藏玩具,粘土人,街头风格, 皮克斯, 大牌鞋, 流行趋势, 特写, 全身

    cute little girl wrapped in transparent plastic, chibi, fluorescent translucent sports fashion trend clothing, wearing big glowing Mike shoes, candy color,simple and bright background, 3D toys, cyberpunk style, cinema4d, octane render, 3d model, collectible toys, Nendoroid, sstreetstyle, Pixar, big shoes, fashion trends, close-up, full body

    8. 角色设计&概念设计

    作为原画师的辅助工具,用 nijijourney 可以大大提高工作效率

    关键词

    游戏中的男性角色,黑绿风格,骑士,流畅的笔触,禅宗灵感,详细的服装,武士刀和和服

    turnaround sheet of lsometric, male character from a game,in the stvle of black and green, knightcore, flowingbrushwork, zen - inspired,detailed costumes,katana and kimono

    藏式首饰图案,动漫人物拿着剑,正视中央的镜头,戴着许多中国藏族风格的珠宝,中国藏族服饰,精致的珠宝,超清晰的细节,特写,风华风格 zhong,史诗般的弯曲镜头,杰作,第一人称独奏,武器设计,中国服装夸张透视齐白石,吴冠中,张克纯,精致的服装细节,与众不同的鼻子,amedee ozenfant,黄士林,深绿松石和浅红色

    Dknolling,knolling of knolling ofChinese Tibetan style jewelry,the animecharacter holding a sword and lookingdirectly at the camera in the center, wearingmany Chinese Tibetan style jewelry, ChineseTibetan costume, exquisite jewelry, ultra clear details,Close-up view, in the style of fenghua zhong,Epicink bending shot,masterpiece, First personsolo, weapon design,Chinese costumeexaggerated perspectiveby Qi Baishi,Wu Guanzhong,Zhang Kechun,exquisite clothing detail, distinctive noses, amedee ozenfant, shilin huang, dark turquoise and light red

    五、最后想说 nijijourney 的出现让 midjourney 有了更多的可能,niji5 相比 niji4 来说进步程度非常大,很大程度上填补了 midjourney 在插画方面的空缺,让生成式 AI 设计有了新的更大的可能性。用户能够使用 Niji 模式快速创建吸引人的动漫角色设计。

    别光收藏不练习,赶紧动手作图吧~

    欢迎关注作者微信公众号:「设计师阿哲」

  • 设计师应该如何拥抱AIGC?来看高手的总结!

    UI交互 2023-04-21
    编者按:ArgoDesign 是一家兼顾设计、产品和咨询一体的跨国设计咨询机构,他们的客户涵盖了包括 IBM、亚马逊、梦工厂和山姆在内的世界知名企业,而这篇文章出自 ArgoDesign 的首席设计师 Guus Baggermans。作为一个大型设计机构的首席设计师,Guus 如今的工作内容是探索 AI 和设计产...

    编者按:ArgoDesign 是一家兼顾设计、产品和咨询一体的跨国设计咨询机构,他们的客户涵盖了包括 IBM、亚马逊、梦工厂和山姆在内的世界知名企业,而 这篇文章出自 ArgoDesign 的首席设计师 Guus Baggermans 。

    作为一个大型设计机构的首席设计师,Guus 如今的工作内容是探索 AI 和设计产品、服务的结合,在负责设计的同时,要探索新技术在产品和服务的应用。通过一系列的测试和体验,Guus 在这篇文章中,非常冷静地阐述了他对于 AI 的看法,优点劣势和 设计师 应对 AI 的姿态,并针对如何创建包含 AI 的产品,提供了有效的建议。

    以下是正文:

    从今年年初开始,咱们就一直在被人工智能的新闻刷屏,你打开新闻网站和社交媒体,是一定会看到大量关于 ChatGPT、Stable Diffusion、Midjourney 和 OpenAI 相关的文章。

    尽管人工智能从 1950 年以来就已经存在,但是最新的人工智能算法将 AI 推到了时代的最前沿。第一台计算机擅长完成重复性的任务,但是需要人借助编程语言和它进行沟通。随着时间的推移,我们开发出了越来越复杂的语言和界面,鼠标、触摸屏和 VUI 都是这个过程中诞生的成果,这使得非程序员也能使用计算机。

    如今,AI 成为了一个特定的分支,被称为 Transformers 的 AI 算法架构塑造了 ChatGPT 这样的工具,类似的 AI 工具也开始在每天的新闻当中铺天盖地地呈现出来。许多基于生成式 AI 的在线工具涌现,而它们的设计却大都显得原始而不够完善。

    AI 带来数不清的新功能 生成式 AI 呈现了不少强大的新功能,这些功能之前之所以无法想象是因为成本太过于高昂,以至于仅仅只出现在某些概念设计中。然而在生成式 AI 的帮助下,它们得以呈现。现在 AI 可以帮助用户进行创造性地创作,在非结构化的数据中发掘信息,回答用户复杂的问题,为每个用户提供真正个性化的体验,甚至可以代表你和他人沟通。 ArgoDesign 也举办了一场精彩的网络研讨会,探讨生成式 AI 对于未来企业的意义。

    边做边想边找答案 我习惯于通过深入实践学习,在学习中理解新概念,塑造能力。在我的工作中,我们将其称之为「边创作边思考」。为了更好地使用 AI,我们举办了内部竞赛,使用生成式 AI 制作电影海报。通过这次练习,我们了解了生成式 AI 的优势和劣势,而这些经验也被我们视作为设计的素材。

    我们使用使用 ChatGPT 等工具来创建电影的名称、剧本甚至影评,然后使用 Midjourney 和 Stable Diffusion 来生成相关的视觉图像。

    通过有趣但足够专业的比赛,来验证工具的可用性,了解其中的差异,我们也逐渐了解到这些工具的运作原理,各自擅长的方面,当然,最重要的还是这些工具所不擅长的是什么。通过这些评估,我们确定,生成式 AI 可以产出可以用来设计的素材。

    这对于设计师意味着什么?

    我得先声明一下 首先,我要做一个简短的声明,文章后续的部分都是建立在这个声明的基础上的。目前,AI 经常会给出我们错误的答案,而且在许多情形下,输出的质量是存疑的。关于 AI 生成的内容在知识产权归属上,即使是法律本身也没有做到完全明确定义,相关的议题依然处于广泛的争论当中,对于 AI 生成的素材对于当今社会的影响无疑是巨大的,并且其中还存在许多伦理道德层面的问题。

    和任何新技术一样,AI 生成用户体验的最佳实践还有待定义。接下来,我们将继续探讨几个成熟的议题。

    可发现性的设计 AIGC 的技术确实是新鲜事物,绝大多数人其实还不明白它能做什么,只是感知上确实感觉有无穷的可能性。总结文本主题,重写内容,在数据中寻找重复的模式,甚至创建一个不存在的小狗的插画,让它戴着棒球帽,踩着滑板。

    ChatGPT 能做很多令人难以置信的事情,但是 OpenAI 并没有提供功能文档,所以是有必要帮助用户来先发觉这些功能,并且让用户了解它们,并且快速访问重要的功能和内容。这就是为什么像 Github 这样得网站上,供用户学习各种 Prompt 得内容会爆炸性地增长。本质上,用户们正在为 OpenAI 编写文档,并且互相分享。

    Midjourney 生成的图片素材更有用,最重要的是 Midjourney 在它的服务当中内嵌了分享功能,用户每生成一套图片,这些图片就会被添加到一个目录当中,用户可以通过这个目录查看生成的图片素材,以及相应的 Prompt,这样一来,用户可以互相学习,无需从头开始。

    Google 则更进了一步,在 Google Workspace 中,将文本的编辑简化为几种易于访问的按钮,这种方式降低了用户编写 Prompt 的复杂操作,用户无需使用「请为我总结这段文字」而是直接点击「Shorten」按钮即可实现功能。

    要点:如果你正在设计 AI 相关的产品,那么一定要向用户介绍甚至演示你们做了什么,让用户知道、了解你的 AI 产品的功能,并帮助用户更好使用它们。

    协助用户在「可能性迷宫」中导航 生成式 AI 可以在短时间内创建大量的内容,以 15 种不同的方式重现编写同一个段落很容易,生成一张图片的 30 个变体也很容易,但是如何帮助用户选择最好、最合适的变体呢?那么在以信息流作为主要成呈现形态的界面当中,如何让更好的那一个从中脱颖而出呢?

    ChatGPT 会为不同的对话自动命名

    ChatGPT 的聊天式界面风格让你可以和 AI 进行「多轮对话」,而已经完成的对话,ChatGPT 会对它的内容进行命名,这些命名能够帮你更快定位。尽管这种方式很酷,但是依然有缺陷,如果你的目标是希望 AI 帮你重写文章的话,那么这个对话当中,你会看到长篇大论的内容,量非常大,那么这种聊天界面可能并不是最理想的载体。

    Midjourney 其实也存在类似的问题,它唯一的交互界面是借由 Disord 而存在,用户必须将聊天机器人加入到自己的服务器之后,才能在 Discord 中发送 Prompt ,然后 AI 才能在其中做出响应,生成你要的图片。

    幸运的是,呈现多个项目的合集,并不是个新的 UI 设计的问题,你可以在 Adobe Lightroom 中找到一个颇为值得借鉴的案例。Adobe 在管理大型摄影项目的时候,有个不错的归档界面,它内置了一套机制,可以帮你更好的过滤、排序、评级、对比不同的照片,如果你需要为你的 AI 产品创建生成内容对比的界面,可以参考这种设计思路。

    要点:如果你的 AI 应用可以低成本生成大量内容,那么它也要具备帮助用户管理和跟踪各种变体的功能。

    培养怀疑精神 & 允许被审视 生成式 AI 擅长输出内容,但是并不擅长呈现输出内容背后的逻辑和原理。当你要求生成式 AI 回答问题的时候,它能给你一个相对完备且信心十足的答案,即使这个答案可能完全是幻觉,甚至并非基于现实。这种错误或者虚幻的结果是现在 AI 生成的副产物,很难预防。那么在设计 AI 类的工具的时候,我们要如何应对呢?

    下面的案例来自 Google 的 Bard LLM,这 Bard 针对用户提出的问题给予了一个回答。用户的问题是每年12月当中,除了1月和2月之外,还有哪些月份,而 Bard 的回答则将 12 个月又重新罗列了一遍,这是一个显而易见的逻辑错误。Bard 并没有给出答案的出处或者生成的缘由,这也使得错误仅仅只是一个错误,而这个答案在这个地方似乎也没有后续探究、改进的可能。

    而一个显而易见的解决方法,就是 LLM 模型将自己获取信息的来源罗列出来,方便用户根据这些来源来验证 AI 所给出的答案。而微软的 New Bing 在这一点上则做的好很多,在 Bing 给出的答案的底部,都能看到这些答案的来源,用户可以点击来源链接深入挖掘答案所涉及的页面。

    另外,可以从这些来源当中提取另外一个数据,就是「可信度评分」,许多机器学习的算法会对 AI 所提供的答案进行评分,下面是 OpenAI 的 Whisper 的截图,这是一种可以将音频内容转录为文本的工具,而它重要的特性在于,它会将所转录出的结果的「可信度评分」直接使用可视化的色彩标识出来,用户可以直观地看到那些内容准确度可信度更高,可以将低可信度的内容排除在外。

    要点:在创建 AI 生成工具或者使用 AI 生成内容的时候,请确保为用户提供工具来验证生成的结果和答案。 AI 并不总是正确的,你的用户理应知道答案是从哪里来的。

    考虑法律和道德的影响 权利越大,相应的法律责任和道德责任就越大!在将生成式 AI 应用到你的程序或者服务中之前,请认真考虑下列问题:

    你所使用的 AI 算法是否存在偏差? 数据集通常是存在偏差的。当你让 Midjourney 生成专业人士的图片时,它确实更偏爱生成男性为主体的图像。我们还能在数据集中找到很多类似的问题。

    你是否正在处理敏感或者私人的信息? 绝大多数的生成式 AI 都是透过 API 在云服务中运行的。从本质上来说,你如果想要使用这些 AI 服务,就意味着你需要将你的信息发送到另外一个公司的网络服务器上,在这些情况下,你最好检查一下你发送的内容和数据是否敏感,以及你的用户是否清楚你并非他们数据唯一的接受方(三星员工曾经为了获得答案在 ChatGPT 中上传了公司的敏感资料)。

    以ChatGPT 为例,他们的隐私政策明确地规定(2023年3月14日更新),他们可以使用用户所提供的个人数据来作为 ChatGPT 的训练数据,而这种和欧洲隐私法(GDPR)相冲突,并且这直接导致意大利直接禁止使用 ChatGPT。

    无论如何,当你想要在产品当中使用 AI 服务的时候,请务必检查隐私政策,查看它们是否符合当地的法律法规。

    生成的内容知识产权对你的 APP 重要吗? 现在关于生成式 AI 输出内容的知识产权归属的争论非常的激烈。现在相关的法律法规还不完善,但是根据现在已有不少相关的案件在进行中,这些案件的判决结果将会为后续法律法规的定调。

    早期比较著名的案件是漫画 Zarya 的版权归属,在这个案件中,美国版权局认定不对 AI 生成的图像进行版权保护。

    最近,美国版权局给出了一个更加细致的指南,指出如果内容仅仅是借助 Prompt 引导 AI 生成,且后续并没有进行调整和设计,那么它将不会获得版权保护。你可以沿着这个思路推导下去,下一个问题可能是,有多少人参与才算有效等等。我相信类似的争论还会持续很久。

    要点:你需要问问自己「我是否站在用户这边?」,请记住,目前所有的情况一直在发生变化,并且持续相当长的一段时间。当你在向产品中添加 AI 的时候,请想清楚这一点,因为你可能之后要一直调整策略和状态。

    最后记住3点 请记住,设计师应该专精设计,如今计算机可以生成以往设计师手工创建的事物,那么就让人工智能成为辅助你、驱动你走得更远的助力。 请记住,生而为人应该洞悉人性,电脑能够生成一堆东西,但是只有你能看出哪些更有价值,哪些东西对人更有意义,而不是反过来。 请记住,亲身尝试,在实践中思考!

    提高3倍效率!能落地的AI绘画&设计系统课来了! 如何快速入门AI绘画和AI设计?

    阅读文章 >


让你的品牌快速脱颖而出,抢占市场份额,提升销量
免费获取方案及报价
*我们会尽快和您联系,请保持手机畅通