• 如何用 Midjourney 轻松做出B端质感图?3分钟让你学会!

    UI交互 2023-04-23
    一、Prompt 简介Prompt 在 Midjourney 中扮演着重要的角色(不仅 Midjourney,其他人工智能语言生成领域都是),因为我们要通过它把我们的想法和意图输送给 AI,从而得到我们想要的设计图或图片。来自百度百科:Prompt 作名词时译为“提示、提词、(电脑屏幕上的)提示符”。更多关键词教...

    一、Prompt 简介 Prompt 在 Midjourney 中扮演着重要的角色(不仅 Midjourney ,其他人工智能语言生成领域都是),因为我们要通过它把我们的想法和意图输送给 AI,从而得到我们想要的设计图或图片。

    来自百度百科:Prompt 作名词时译为“提示、提词、(电脑屏幕上的)提示符”。

    更多关键词教程:

    50个保姆级咒语,带你彻底玩转二次元AI绘画神器Niji V5 近期 Midjourney 推出了最新的 Niji Version 5,很多用户反馈,在插画和动漫制作方面,niji V5 要比 V4 的作图能力强很多倍。

    阅读文章 >

    本文配图是由本人使用 Midjourney 生成

    二、Midjourney 的通用公式及组成要素 就像我们初高中写作文的时候需要时间、地点、人物、起因、经过、结果六要素,现在我们出图也需要主题、背景/环境气氛、构图/镜头、风格化/参考方向、图像设定这些要素,不是每次出图都要用到所有要素,只需根据自己实际需要选择一个或者几个要素来进行描述即可。那么很明显,通用公式就是由这几要素组成的。

    1. 通用公式

    主题 + 背景、环境气氛 + 构图、镜头 + 风格化、参考方向 + 图像设定

    知道了公式,那公式里的组成要素具体是什么样的呢?

    2. 组成要素

    3. 主题内容

    你想画一个什么,例如,一只小猫、一盆花等等。也包括对主题的一些稍详细的描述,比如,一只白色的戴着帽子的小猫等等,这里就不多赘述了。

    4. 环境、背景气氛

    主题在什么环境、背景氛围中,例如给定某些地点或物件,比如,桌子上、足球场、下雨天或水面有倒影等等,主要包括以下几个方面的内容:

    地点:室内、室外、森林里、月球上、外太空、非洲等

    材质:做旧、哑光、浮雕、金、红宝石等等

    色调:鲜艳的、柔和的、明亮的、单色的、多彩的、黑白、粉色等等

    光线/光效:柔和、阴天、霓虹灯、摄影棚灯、环境光等等

    情绪/氛围:开心的、难过的、惊喜的、平静的、喧闹、浪漫等等

    5. 构图,镜头

    想要什么样的构图或者镜头,比如,全身、头像、半身像、特写等,强调物体位置的,居中构图、正视图等,强调景深,中景、广角等。

    例如,一匹马在草地上奔跑,它的俯瞰图和特写镜头

    (在这里说一个小 tips,我写 8K 是想要设计图高清,但是个人感觉加进去图片质量并没有多大变化,反而景深效果会更明显。)

    6. 风格化,参考方向

    想要什么样的风格,可以是风格描述、艺术网站、艺术家名字,或者直接写参考网站,比如 dribble、3d。最后,个人也把特效渲染归到此类中。

    7. 图像设定

    Midjourney 中的一些后缀词,例如:

    -- v 4 代表版本号(style 4b)意思是使用 V4 模型,在 setting 中可以设置;

    --ar 代表图像宽高比,比如--ar 3:4 代表生成 3:4 比例的设计图;

    --no 否定关键词,不希望图片中出现某元素,比如--no hand,详见

    更多后缀知识:

    AI绘画进阶必看!9种 Midjourney 常用后缀参数 大家好,这里是和你们聊设计的花生~ 最近 AI 绘画真的越来越火了啦,开始有越来越多的设计师将 Midjourney 用到自己的设计工作流中,让它们生成各种设计灵感或素材。

    阅读文章 >

    三、出图逻辑及三种生图方式 1. 出图逻辑

    描述 prompt 关键词,AI 进行计算,然后生成图像

    2. 三种生图方式

    ① 纯关键字描述

    即在输入框里输入"/imagine"然后输入自己的描述关键词,确认无误后,发送,等待结果

    ② 图加关键字

    先点击加号,上传所需要用到的图片,在输入框里输入"/imagine"然后输入图片链接,空一格,再输入自己的描述关键词,确认无误后,回车,等待结果

    ③ 图加图

    用的是 blend 功能,在输入框里输入"/blend"会有上个拖入图片的框,把所需要用到的图片,直接分别拖入框中,回车,等待结果。另外,这里不止能导入 2 张图,最多可以导入 5 张图,具体做法这里就不赘述了。

    这里有一个小技巧需要注意一下,两张图的比例尽量是相同的,这样生成的图会比较规整。

    四、实际应用案例--3D 风格 B 端运营图标设计 首先写出你的关键词,根据公式,把我们的想法和要求一一列出来,这样可以避免遗漏,而且各种要素一目了然还可以提醒自己有没有其他需要完善的描述词。

    举个 :我想要设计一个,C4D 风格的,蓝色透明的磨砂玻璃质感的关于网络安全的图标,要有科技感,工业设计风格,白色背景,影棚灯光,3d,c4d,blender 渲染,高细节,参考一下 dribble 和 behance

    1. 写出关键词: 构思,理清思路,想要什么

    根据以上想法,按照公式来整理思路,如下图:

    2. 找到参考图用来垫图

    我们现在按照上边说的第二种生图方法,图片加关键词的方法来生成设计图,利用图片生成能更好的控制生成图片的风格和品质。这里需要注意的是,参考图尽量选择质量比较高的,这样生成的图大概率也是质量很高的。

    根据这个案例实际情况,需要选择结构清晰,背景干净的图用来当作垫图。如果找的一张图片实在符合自己口味,就有一点美中不足,那就去 PS 里简单的抠一下,然后再拿来使用。

    3. 打开 Discord,开工

    现在一切准备工作都做好了,就可以开始设计了,打开我们的 Discord,可以开工了。可以按照步骤拆解,一点一点的加入关键词,这样能一步步看到生成的效果,以及如果出现什么意外,可以及时发现问题出现在哪里,毕竟关键词的细微差别,带来的结果可是千差万别的。在设计的过程中可以根据实际情况进行关键词的调整。

    ① 先输入主题信息

    先输入主题信息,看看生成的是什么,然后再逐步进行输出。

    输入:

    一个玻璃质感的盾牌形状的图标,有倒影 a blue glass textured shield with a reflection,

    感觉图标整体上来看,结构太复杂了,我们的目标是简单一点的,就做出如下调整,强调一下简单的这一特征,具体变化如上图。

    ② 加背景、环境气氛

    感觉生成的图的效果已经出现自己想要的效果了,可以点击刷新按钮,多刷新几次,多出几组图片,以供选择。接下来可以根据自己满意的某张图进行扩展,加入环境相关的描述词。

    输入:

    一个玻璃质感的盾牌形状的图标,有倒影,浅色的背景,明亮的,居中构图 a blue glass textured shield with a reflection, light background, bright, Center the composition,

    另外,这里说一下居中构图这个关键词,居中构图在这里可以用也可以不用,因为我们这个场景比较简单,一般出来都是居中的,但是如果是复杂场景就要强调一下,写上「居中构图 Center the composition」关键词,以防后期 AI 有自己想法,生成的效果不尽如人意,导致重新做或者调整,这样会无形中增加我们工作量。

    ③ 构图/镜头和风格

    如上,添加上背景、氛围相关的关键词,生成的结果,第 2 个图片和第 4 个图片的效果感觉都还挺可以,但是差点意思,可以再加入些想要的风格,如,艺术家名字、参考方向(dribble、behance 等等),这里加入 3d、和参考下 dribbble 网站上的风格。

    输入:

    一个玻璃质感的盾牌形状的图标,有倒影,浅色的背景,明亮的,居中构图,特写,3d 风格,参考 dribbble a blue glass textured shield with a reflection, light background, bright, Center the composition, Headshot, 3d, dribbble,

    选择一个效果比较满意的图,进行扩展,这里我选择了第 2 个和第 4 个图片进行扩展,即点击“V2、V4”按钮。配合混合模式加入关键词「Headshot」「3d, dribbble」,咒语及结果如下图所示:

    这里补充一下知识点:U 按钮(Upscale 放大),可以放大对应序号的图片的比例,来提高其分辨率;V 按钮(Variation 变化延展),可以基于原描述词,生成对应序号图片的变体,画面对比母版,图片的细节会出现随机变化。

    点击“V2、V4”按钮以后的情况如下:

    ④ 图像设定及输出结果

    这里图像设定,“--ar 1:1”就不写了,因为系统默认就是 1:1 的图,如果你要 3:4 或者 16:9 的图,是需要设定一下的。

    经过以上步骤,从出来的扩展效果来看,2 种情况的第 4 张图(纯属巧合)无论是图片的整体感觉还是细节的处理上都还是挺好的,两种图都是锁定了第 4 张图,可以分别点击“U4”按钮对图片进行放大处理。结果如下

    补充下,Midjourney 的 V5 版本生成大图以后没有继续细化的功能按钮。V4 版本生成大图以后还会有继续细化的操作按钮,比如“light/beta Upscale Redo ”可以对图片进行细节优化,如下图

    4. 总结,输出结果应用到工作中

    最后,经过以上步骤,制作出了符合要求(令我们自己满意)的设计图,就可以应用到工作中,产生生产力啦。

    把图导入到 figma、sketch,PS 里进行后期细化加工,设计出自己所需要的物料。效率绝对杠杠的~

    无需过多处理,即出即用,简单快捷。

    后续,我会持续输出相关的 Midjourney 在 B 端应用中的系列教程文章,期待与大家一起沟通探讨。

    欢迎与我交流:

  • 2000 字快速入门!产品小白必懂的 5 种组件类型

    UI交互 2023-04-23
    作为公司的产品老油条,大小也面了不下 50 个产品,产品经验横跨 0~3 年、3~5 年。这么多次面试中,我每次都喜欢问一个问题“你大概了解几种 UI 组件(前端组件)呢,能举例说明一下吗?”然而每次给我的答复 80% 是“什么是组件?

    作为公司的产品老油条,大小也面了不下 50 个产品,产品经验横跨 0~3 年、3~5 年。这么多次面试中,我每次都喜欢问一个问题“你大概了解几种 UI 组件(前端组件)呢,能举例说明一下吗?”

    然而每次给我的答复 80% 是“什么是组件?”有时我会继续说“在页面内的所有内容都可以称为组件”候选人给我的反馈,还是一脸懵逼。

    剩余的 20% 能答出“轮播、对话框、列表”等常见组件,就算产品基础能力一般的了。

    我真的很想问他们,难道你在设计原型的时候,连自己做的是什么都不知道吗?那你的页面是怎么设计出来的?后续的一系列交互反馈,又是依据什么进行设计?

    一、什么是组件? 创新,是在一系列约束条件下,对基础元素的排列组合。

    一些爱偷懒的产品,发现了 产品设计 的套路,他们熟知不同的大厂组件库,了解 50+ 组件样式和组件类型,再依据不同功能、场景、需求,将各种组件进行排列、组合,完成页面、功能、乃至模块的高效设计。

    那什么是组件呢?组件(Component)常见于互联网的设计和开发工作中。

    用于 UI 设计时,组件是界面的组成部分,包含了不同的类型、行为和状态。而在开发领域,组件指的是对数据和功能的简单封装。

    如图为京东首页,你认得几种组件呢

    我对组件的理解是,组件是具有特定样式和用途的内容组合。

    多个页面基本元素(例如文本、字体、字色、形状等)组成了组件,而多个组件又能组合成不同的页面。

    简单来说,页面内的任意内容,都可称作组件。

    二、组件的五种类型 我们可以把大多数组件,归类为五种常见类型:基础、导航、输入、展示、反馈。

    基础:基础元素 导航:位置指引 输入:数据录入 展示:数据显示 反馈:数据交互 如图为有赞的 vant 组件库,大致包含了 5 种类型,约 70+ 个组件,不同的组件有各自的样式和用途。

    基础 基础组件是一些常见的页面基础元素。

    基础组件主要有:图标、文本、按钮、图片、单元格、遮罩层、弹出层等。

    导航 导航类组件,主要帮助用户了解当前位置和指引各个页面跳转。

    该类组件包括宫格、导航栏、标签栏、索引栏、分页器等。

    输入 输入类组件一般用于数据录入,例如选择内容、输入文本等操作。

    常见的输入类组件有:单选框、复选框、输入框、表单、选择器等。

    展示 展示类组件,主要用于显示相关数据内容。

    头像、徽标、标签、列表、通知栏等组件都属于展示类组件。

    反馈 用户进行操作后,引发的一系列数据交互,即为反馈类组件。数据交互可以是内容提示、状态过渡、数据录入等。

    常见的反馈组件包含了对话框、吐司提示、气泡提示、动作面板、下拉刷新等。

    三、一些大厂的相关组件库 1. Ant Design

    Ant Design 是蚂蚁集团(体验技术部)基于大量业务实践和项目总结,抽象构建出的企业级产品的设计体系。Ant Design 基于自然、确定性、意义感、生长性四大设计价值观,通过模块化解决方案,降低冗余的生产成本,让设计者专注于更好的用户体验。

    2. Zan Design

    Zan Design 是有赞出品的一套服务于产品设计的设计模式和实践方法。

    它主要由产品原则、设计原则、内容策略、布局与模式、视觉、动效、资源、组件等几大部分组成。Zan Design 的组件库支持桌面端、移动端、小程序等多端组件。

    3. Arco Design

    Arco Design 是字节跳动 UED 团队出品的企业级设计系统,字节旗下的今日头条、番茄小说、头条号、火山引擎等优秀产品都使用了 Arco Design,同时它还支持多国语言、定制主题等特性。

    4. 其他组件库

    除了上述的组件库之外,还有:

    小程序组件:微信、支付宝、百度、字节、360 等; 后台组件:Element、Semi Design、King Design、58 同城 matrix 等; web 组件:NutUI、Cube UI、VUX UI 等; 综合组件:Taro、uView UI。 总结 组件,是具有特定样式和用途的内容组合,主要有五种类型:基础、导航、输入、展示、反馈。

    基础:基础组件是一些常见的页面基础元素,例如图标、文本; 导航:主要帮助用户了解当前位置和指引各个页面跳转; 输入:一般用于数据录入,例如选择内容、输入文本等操作; 展示:主要用于显示相关数据内容; 反馈:用户进行操作后,将会引发一系列数据交互。 不懂上述基础组件,产品设计就像是盲人摸象。只能依靠以往的产品经验、或找几个竞品功能抄抄完事,下次遇到新需求又得重头思考。所以,掌握组件概念,已经成为初级产品的必备知识。

    欢迎关注作者微信公众号:「产品之外」

  • 用不了ChatGPT?快试试免费又强大的Anthropic Claude

    UI交互 2023-04-23
    大家好,这里是和你们一起探索 AI 的花生~前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~往期回...

    大家好,这里是和你们一起探索 AI 的花生~

    前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude ,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~

    往期回顾:

    设计师必看!6种ChatGPT实用使用指南 大家好,这里是和你们聊设计的花生~ 最近 ChatGPT 真的太火了,每天都会在网上刷到关于它的各种讨论,身边的同事也已经在用它处理一些文字工作,不知道大家有没有用起来呢?

    阅读文章 >

    一、Claude 简介 Anthropic 官方: https://www.anthropic.com/product

    Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研究的初创公司 Anthropic,由前 OpenAI 员工共同创立的。今年 3 月份 Anthropic 获得了谷歌 3 亿美元的投资,谷歌也因此获得其 10% 股份。

    Anthropic 官网

    据官方介绍,Claude 的核心模型经由训练,目标是变得有用、诚实和无害,因此相比其他的大语言模型,Claude 更少生成有害的内容。此外 Claude 更能理解和接受自然语言,和它对话无需复杂的技巧,可以轻松得到详细且易于理解的答案。它目前有两种型号 Claude-v1 和 Claude Instant:

    ① Claude-v1:功能强大的模型,可以处理复杂的对话、生成创意内容和详细说明。

    ② Claude Instant:更快更便宜的模型,可以处理偏随意的对话,对文本进行分析和摘要以及根据文档进行问答。

    与 ChatGPT 等大型语言模型一样,Claude 的应用场景非常广泛,信息搜索、内容总结摘要、写作协助、创意生成、问答、编程这些任务它都能轻松完成。目前 Claude 已经被应用在多个知名产品中,比如知识笔记工具 Notio AI 就是用 Claude 协助用户进行智能写作,国外问答社区 Quora 也在自己的 AI 聊天应用程序 Poe 中置入了 Claude。

    虽然是用英语语言训练的,但是 Claude 也能很好的理解中文等其他语言。为了测试 Claude 的中文理解及创作能力,我让它写了一首赞美设计师的诗。它的反应速度很快,几秒内就给出了内容,创作的质量也很不错,运用比喻修辞手法,还知道中英文结合使用,感觉比我厉害多了。使用过程中我发现如果聊天时间间隔太长,Claude 会自动断线,发消息它没有反应,需要刷新网页后才能重新连接上。

    又测试了一下它的信息检索能力,问题是“人像摄影中常用的手法”,Claude 也是非常快速地给出了对应的信息,不过在最后一条中出现了几个莫名其妙的符号。在我指出这个问题后,Claude 很快意识到了自己的错误并进行了修正。 随后我还让它将回答的内容翻译为英文,之后就能直接用在 AI 绘画中作为关键词参考了。

    我还问了一个测试 AI 反应的经典问题“2+3 应该等于几”,Claude 的回答非常稳。先是表明从数学角度来说 2+3 应该等于 5,还建议我可以用数指头方式向对方解释;在得知我朋友坚持己见后,建议我“以退为进”之后再慢慢解释,或者“暂时避开话题”,还不断强调友谊的重要性,可以看出“情商”还是挺高的。

    二、Claude 使用途径 Slack-Claude 官方网址: www.anthropic.com/claude-in-slack

    Claude 已经被置入一款团队协作沟通应用 Slack 中,目前可以免费使用。具体的注册使用方法如下:

    三、Claude 的不足 Claude 也依旧存在着很多和其他 AI 聊天机器人一样的缺陷,首先是它没有接入互联网,模型训练的内容来自于 2021 年春季以前,所以无法提供日期、天气、新闻等实时信息或据此提供进一步的判断。

    Claude 也一直在聊天的过程中提醒用户自身存在的局限性,比如在处理高度抽象的概念、类比、隐喻方面有困难;会产生“幻觉”,编造不存在的对象和内容;不擅长处理复杂数学和推理问题;无法根据过往的聊天信息更新自身内容或纠正目前存在的问题等,所以使用 Claude 时我们还是要保持谨慎,对重要的信息要进行再次验证。

    356*1597 的正确答案应该是 568532,Claude 给出的答案是错的,系统也在问答下方提示“Claude 不擅长处理数学问题”。

    在与 Claude 进行对话时,我们可以通过以下几点获取更好的使用体验:提问时描述具体,指向准确,必要时提供一定的背景或上下文信息; 给 Claude 一个“退路”,提问时说明如果它不知道可以用“我不知道”来回答,从而避免它编造虚假的内容 不用 Claude 处理它明显不擅长的内容,比如复杂的数学或者推理问题。 以上就是本期为大家推荐的免费 AI 聊天机器人 Anthropic Claude ,它的功能与 ChatGPT 不相上下,能很好地理解中文,比 ChatGPT 更加容易获取和使用,感兴趣的话可以按照文内的教程注册使用,记得要乘早哦,说不定之后就会收费了。

    喜欢本期推荐的话请大家多多点赞收藏进行支持,之后会继续为大家推荐更多 AI 干货知识 ~ 有关于本文或者设计的问题可以在评论区提出 ,我会第一时间回复。、

    参考资料:

    https://www.theverge.com/2023/3/14/23640056/anthropic-ai-chatbot-claude-google-launch Anthropic launches Claude, a chatbot to rival OpenAI’s ChatGPT | TechCrunch 推荐阅读:

    这5款工具,让设计师工作效率提升 200%!(十六) 大家好哇,这里是和你们聊设计的花生~ 今天为大家带来的是第 16 期的设计师效率工具推荐,本期的 5 款效率神器分别是: 效果惊人!

    阅读文章 >

    AI绘画必看!5个实用技巧让图像生成效率提升200% 大家好,这里是和你们一起探索 AI 绘画的花生~ 想必很多设计师小伙伴都在用 Midjourney 生成各种设计灵感或者素材,比如 3D 人物、UI 界面,渐变纹理、矢量插画等,而且只要我们掌握了其中的关键词或者公式,就能快速生成对应的效果,非常方便。

    阅读文章 >

  • 用不了ChatGPT?快试试免费又强大的Anthropic Claude

    UI交互 2023-04-23
    大家好,这里是和你们一起探索 AI 的花生~前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~往期回...

    大家好,这里是和你们一起探索 AI 的花生~

    前段时间 OpenAI 封禁了一批账号,导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude ,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~

    往期回顾:

    设计师必看!6种ChatGPT实用使用指南 大家好,这里是和你们聊设计的花生~ 最近 ChatGPT 真的太火了,每天都会在网上刷到关于它的各种讨论,身边的同事也已经在用它处理一些文字工作,不知道大家有没有用起来呢?

    阅读文章 >

    一、Claude 简介 Anthropic 官方: https://www.anthropic.com/product

    Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研究的初创公司 Anthropic,由前 OpenAI 员工共同创立的。今年 3 月份 Anthropic 获得了谷歌 3 亿美元的投资,谷歌也因此获得其 10% 股份。

    Anthropic 官网

    据官方介绍,Claude 的核心模型经由训练,目标是变得有用、诚实和无害,因此相比其他的大语言模型,Claude 更少生成有害的内容。此外 Claude 更能理解和接受自然语言,和它对话无需复杂的技巧,可以轻松得到详细且易于理解的答案。它目前有两种型号 Claude-v1 和 Claude Instant:

    ① Claude-v1:功能强大的模型,可以处理复杂的对话、生成创意内容和详细说明。

    ② Claude Instant:更快更便宜的模型,可以处理偏随意的对话,对文本进行分析和摘要以及根据文档进行问答。

    与 ChatGPT 等大型语言模型一样,Claude 的应用场景非常广泛,信息搜索、内容总结摘要、写作协助、创意生成、问答、编程这些任务它都能轻松完成。目前 Claude 已经被应用在多个知名产品中,比如知识笔记工具 Notio AI 就是用 Claude 协助用户进行智能写作,国外问答社区 Quora 也在自己的 AI 聊天应用程序 Poe 中置入了 Claude。

    虽然是用英语语言训练的,但是 Claude 也能很好的理解中文等其他语言。为了测试 Claude 的中文理解及创作能力,我让它写了一首赞美设计师的诗。它的反应速度很快,几秒内就给出了内容,创作的质量也很不错,运用比喻修辞手法,还知道中英文结合使用,感觉比我厉害多了。使用过程中我发现如果聊天时间间隔太长,Claude 会自动断线,发消息它没有反应,需要刷新网页后才能重新连接上。

    又测试了一下它的信息检索能力,问题是“人像摄影中常用的手法”,Claude 也是非常快速地给出了对应的信息,不过在最后一条中出现了几个莫名其妙的符号。在我指出这个问题后,Claude 很快意识到了自己的错误并进行了修正。 随后我还让它将回答的内容翻译为英文,之后就能直接用在 AI 绘画中作为关键词参考了。

    我还问了一个测试 AI 反应的经典问题“2+3 应该等于几”,Claude 的回答非常稳。先是表明从数学角度来说 2+3 应该等于 5,还建议我可以用数指头方式向对方解释;在得知我朋友坚持己见后,建议我“以退为进”之后再慢慢解释,或者“暂时避开话题”,还不断强调友谊的重要性,可以看出“情商”还是挺高的。

    二、Claude 使用途径 Slack-Claude 官方网址: www.anthropic.com/claude-in-slack

    Claude 已经被置入一款团队协作沟通应用 Slack 中,目前可以免费使用。具体的注册使用方法如下:

    三、Claude 的不足 Claude 也依旧存在着很多和其他 AI 聊天机器人一样的缺陷,首先是它没有接入互联网,模型训练的内容来自于 2021 年春季以前,所以无法提供日期、天气、新闻等实时信息或据此提供进一步的判断。

    Claude 也一直在聊天的过程中提醒用户自身存在的局限性,比如在处理高度抽象的概念、类比、隐喻方面有困难;会产生“幻觉”,编造不存在的对象和内容;不擅长处理复杂数学和推理问题;无法根据过往的聊天信息更新自身内容或纠正目前存在的问题等,所以使用 Claude 时我们还是要保持谨慎,对重要的信息要进行再次验证。

    356*1597 的正确答案应该是 568532,Claude 给出的答案是错的,系统也在问答下方提示“Claude 不擅长处理数学问题”。

    在与 Claude 进行对话时,我们可以通过以下几点获取更好的使用体验:提问时描述具体,指向准确,必要时提供一定的背景或上下文信息; 给 Claude 一个“退路”,提问时说明如果它不知道可以用“我不知道”来回答,从而避免它编造虚假的内容 不用 Claude 处理它明显不擅长的内容,比如复杂的数学或者推理问题。 以上就是本期为大家推荐的免费 AI 聊天机器人 Anthropic Claude ,它的功能与 ChatGPT 不相上下,能很好地理解中文,比 ChatGPT 更加容易获取和使用,感兴趣的话可以按照文内的教程注册使用,记得要乘早哦,说不定之后就会收费了。

    喜欢本期推荐的话请大家多多点赞收藏进行支持,之后会继续为大家推荐更多 AI 干货知识 ~ 有关于本文或者设计的问题可以在评论区提出 ,我会第一时间回复。、

    参考资料:

    https://www.theverge.com/2023/3/14/23640056/anthropic-ai-chatbot-claude-google-launch Anthropic launches Claude, a chatbot to rival OpenAI’s ChatGPT | TechCrunch 推荐阅读:

    这5款工具,让设计师工作效率提升 200%!(十六) 大家好哇,这里是和你们聊设计的花生~ 今天为大家带来的是第 16 期的设计师效率工具推荐,本期的 5 款效率神器分别是: 效果惊人!

    阅读文章 >

    AI绘画必看!5个实用技巧让图像生成效率提升200% 大家好,这里是和你们一起探索 AI 绘画的花生~ 想必很多设计师小伙伴都在用 Midjourney 生成各种设计灵感或者素材,比如 3D 人物、UI 界面,渐变纹理、矢量插画等,而且只要我们掌握了其中的关键词或者公式,就能快速生成对应的效果,非常方便。

    阅读文章 >

  • 直播间“贩卖”小哥哥:有人看没人买

    设计动态 2023-04-22
    没想到,蒙牛用一群“小哥哥”,接住了“从天而降”的流量。 近日,有网友发现,蒙牛冰淇淋旗舰店官方账号在抖音开启直播带货,五天七场直播涨粉三万多,平均每场直播涨粉四千多,账号视频点赞量也从个位数增长过万。 虽然蒙牛的数据还算不上顶流,但对一个自播品牌,属实算“出

    在竞争越来越激烈的直播间,为了获得流量拓宽销量,主播们越来越会整活。最近,直播间出现了很多帅气的小哥哥们,他们的出现能带来销量吗?本文作者对此进行了分析,与你分享。

    没想到,蒙牛用一群“小哥哥”,接住了“从天而降”的流量。

    近日,有网友发现,蒙牛冰淇淋旗舰店官方账号在抖音开启直播带货,五天七场直播涨粉三万多,平均每场直播涨粉四千多,账号视频点赞量也从个位数增长过万。

    虽然蒙牛的数据还算不上顶流,但对一个自播品牌,属实算“出圈”。

    令人注意的是,打开蒙牛冰淇淋旗舰店的直播间会发现,与清一流的“已拍”“抢不到”“加单”的评论不同,“小哥哥”“宝贝”“好看”等大量带有情感色彩的词“攻陷”评论区。

    直播间里,两位长相清秀、奶声奶气的小哥哥简单介绍着蒙牛的雪糕,热火朝天的评论区积极讨论着与产品无关的话题,直播间点赞量很快超过50万。要知道,在4月16日之前,该账号还未开过直播。

    而该账号开直播,源于“偶然”。此前,一位博主拍了有关伊利雪糕的视频,其中拟人化的一句“我浑身奶油香香的”带火了伊利小布丁。有网友调侃,伊利需要“打钱”。然而,在伊利直播间,带货主播却表示“我们被蹭热度了,凭什么给他广告费。”而后,该博主删了相关视频,并用蒙牛小布丁代替伊利发了新视频,意外“捧红”了蒙牛。

    蒙牛承接“流量”的方式,是迅速开启品牌直播,选用“小哥哥”作为主播,让直播间持续保持热度。

    从借用“猛男”带货的椰树、“小奶狗”卖货的维达、“小鲜肉”直播间卖咖啡的瑞幸,到如今选择“小哥哥”的蒙牛,让人们不禁发问,为什么品牌纷纷启用“小哥哥们”自播?在流量见顶、拉客成本增加的环境下,“小哥哥风”是否会是一种新趋势?对于品牌来说,这是一种让自播出圈的“捷径”吗?

    01 直播间开始贩卖“小哥哥”? 蒙牛走红或许是“偶然”,但能保持热度逃不开人为因素。

    自从被关注后,蒙牛冰淇淋旗舰店抖音账号中,两位“小哥哥”的出镜率非常高,四天发了12条相关视频,而且男主播代替雪糕成了主角。在直播间里,“小哥哥们”也是沿着“饭圈路线”, 用组CP、才艺展示、聊天互动等形式不断引导观众下单、关注。

    此外,不少粉丝也开始在抖音、微博等平台,上传录屏和剪辑的“小哥哥”直播间片段。截至目前,新榜数据显示,蒙牛冰淇淋旗舰店共有7场直播,累计观看人次195.83万,场均观看人次超28万,单场人气峰值为2405人。

    要知道,这是在4月16日之前,该账号还未直播过的基础上的数据增长。

    抖音中用户上传的相关主播视频

    蒙牛借用“小哥哥们”维持热度的背后,是直播电商中, “男颜消费”释放的流量价值 。而试图借此打开直播带货大门的品牌不在少数。

    令人印象深刻的,无疑是椰树的“猛男”直播带货。

    今年3月,椰树在被指责利用美女擦边营销后,开始将直播间的镜头转向带货男主播。直播间里,一群主打健身特色的“阳光男孩们”,一边手持椰树产品,一边展示身材,不时和评论区互动,引导购买。虽然很多人质疑这些“男孩们”过分“油腻”,但并不妨碍椰树借此迅速登上各大平台热搜,直播间流量猛涨。数据显示,在3月18日的一场直播中,椰树直播间观看人次达到256万,超过此前“美女直播”带货的热度。

    而后,椰树又推出“西装男”带货,继续利用“小哥哥们”博眼球、赚流量。

    其实,早在去年,瑞幸官方就曾在双十一期间,联合浙江理工大学,将直播间打造成走秀场,组织多位身着时尚秀装的“小鲜肉”们,走秀卖咖啡。在外形不一、各具特色的“小哥哥们”的引流下,瑞幸上架的9.9元兑换券链接瞬间秒空。

    另外,直播“贩卖小哥哥”的“鼻祖”品牌维达,可谓“经验丰富”。

    去年,维达在其子账号维达网商纸品湿巾专卖店直播间中,开始全部启用“小哥哥们”直播带货。发展一年多,目前, 其“小哥哥”直播带货模式已经形成了系统化、场景化、个性化的直播风格 。在维达直播间里,“小哥哥们”没有复杂的口播,不用介绍产品,偶尔一句“9块9包邮,姐姐支持一下”即可。

    同时,维达也为几位带货男主播,专门打造了“宝藏少年团”账号,风格迥异的“小哥哥们”承担着不同的人设,既在各自专属账号中积极“营业”,也在官方账号中互动引流,颇具娱乐圈“造星”风格。

    品牌们要在竞争白热化的直播间里抢夺流量, 吸睛的“小哥哥们”成为流量密码。

    02 品牌直播间,不卷美女卷帅哥? 品牌直播间需要的小哥哥,离不开“颜值至上”的定律。有网友注意到,椰树集团开始推出招募主播计划,招聘1米8以上阳光健康大男孩,有腹肌、肌肉,配合直播拍摄展示产品,每天工作约6个小时,薪资约500元至800元一天。

    哪怕被“群嘲”,椰树还是继续将“小哥哥”的直播风格贯彻到底,这背后有着品牌不得不做的“焦虑”。

    今年,各大平台流量入口纷纷调整分配机制,对商家来说,投流的成本变高,获取自然流量的难度增大,转向自播的品牌面临着更多问题。目前,很多中小品牌直播间, 甚至只有个位数的观看人数,成交量少之又少 。但品牌直播间作为重要的销售、曝光方式,又是不能放弃的渠道。

    “抖音更改流量政策后,对商家们来说,付费买流量成本增加,收益降低。目前,品牌直播间直接投流在运营方式上只占很小一部分,多数是要尽可能撬动自然流量。”某平台电商直播运营总监姜姜对开菠萝财经表示。

    利用“男性颜值”撬动自然流量 ,成为很多品牌们心照不宣的共识。

    前瞻产业研究院2021年数据显示,我国直播电商下单用户女性占比达53.8%,是主要消费人群。淘宝、抖音中的下单用户中,女性占比均超60%。另外,从年龄结构上看,中青年群体是直播电商产品的主要消费群体,其中,近三成观看用户为95后和00后。 年轻女性在直播带货消费中,地位优势明显。

    “刚开始大家并不看好男性做主播,男主播也多存在于游戏直播领域,品牌带货主播在招募和培训时会倾向于女性化。但近两年,随着女性消费群体的崛起,品牌在选择带货主播时开始从用户角度考虑主播类型。”从事直播带货的汪汪向开菠萝财经介绍。

    尤其是在一些美妆产品、护肤产品、家居用品中,女性是主要购买人群。虽然男性主播与产品的关联度不高,但可以诱发消费者的好奇心、参与感,提高对品牌关注度。

    当然,在招募男主播时, 颜值是必不可少的一项,有才艺、高情商也是商家考虑的要素 ,要么有颜,要么有趣。汪汪补充说,不同于女性主播白热化的内卷环境,目前男性主播市场还处于蓝海的状态,有特色的男主播,有可能帮助中小品牌们找到带货新入口。

    维达网商纸品湿巾专卖店抖音账号首页内容

    除了女性是直播带货消费的主力之外,“颜值经济”背后的情绪价值,也是品牌“贩卖”男性主播的原因。

    与多数主播在直播间聚焦介绍产品特点、效用、性价比不同,蒙牛、椰树等直播间里,“小哥哥们”的销售属性并不强,仅仅是简单地说一下产品数量和工厂所在地,更多时间用在和评论区的互动上。姜姜指出, 现在品牌自播更关注私域流量,通过情感互动,将流量转化为用户沉淀,能够为品牌带来更多的“购买力” 。

    他表示,“男颜消费”归根到底是品牌为了激活潜在用户使用的营销手段。消费者对主播的信任感不高,在这些直播间里下单的几率很低。但“高颜值”“强互动”“强社交”等因素能够形成情感联动,加上“点点关注”“加粉丝团”的话术引导,“直播+情绪”可以提升私域粉丝的粘性,帮助品牌实现流量自然增长。

    03 有流量,没销量? “小哥哥们”能短时间内吸引眼球,但不意味着能提高品牌销量。

    新抖数据显示,在蒙牛冰淇淋旗舰店长达10小时的直播中,场均销售量仅为500-750,场均销售额只有2.5万-5万。同样,虽然椰树的“猛男直播”,场观达到了12万,但销售量不足千单。引发全网关注的瑞幸“走秀”,销售额更是与平日没有太大涨幅。

    借助“小哥哥们”出圈,品牌自播还有很长的路要走。

    首先从主播的角度来看,只靠“脸”完全不能承担起直播带货的要求 。目前,蒙牛冰淇淋旗舰店的直播间里,几位“小哥哥”的业务能力与原本另外两位“小姐姐”主播的差距非常明显,口播能力和对品牌的熟知度都不如后者。当被问到“xx地能否发货”“孕妇能不能吃”的简单问题时,“小哥哥”更是将问题抛给客服,进行产品介绍时也多是“照本宣科”。

    其次,从带货的产品来看,卖货是品牌自播的核心, 但在“小哥哥们”的直播间里,观众对主播的讨论热度,远超过“货”本身。

    维达直播间被变成了“听歌房”,由于品牌培养起的多位小哥哥均开设了私人账号,直播间流量逐渐外流到主播个人身上,导致一些主播热度不断攀升,关注度远超品牌。

    同时,不论是冰淇淋还是咖啡、纸巾,男性主播与产品的关联度并不高,说服力不强,导致带货主播和带货产品处于“割裂状态”,无法产生互补效应,造成了直播带货有流量没销量的尴尬局面。

    “评论区更像是一场狂欢聚会,大家一起讨论八卦、吃瓜。”一位蒙牛冰淇淋旗舰店的新粉丝介绍说,自己没关注,没点亮灯牌,更没下单,主要是因为这些产品自己不需要,性价比也不高,留在直播间纯粹是因为评论区好玩,看主播与粉丝互动有意思。

    图源 / 蒙牛冰淇淋旗舰店直播间

    最后, 品牌们能否有效利用“小哥哥们”带来的流量也是一大问题。

    对于瑞幸、蒙牛、维达等品牌来说,“小哥哥们”的直播带来的销量微乎其微,短时间内能为品牌直播间提升一定热度,但品牌能否留住这波流量,并有效利用,还有待观察。

    “小哥哥风”的兴起,从短视频卷入直播间,找噱头、蹭热点、玩花样,反映着品牌们直播带货的流量焦虑。颜值可以吸引眼球,“小哥哥们”是品牌们自播“冷启动”的近道,却不是品牌在直播带货道路持续发展的长久之计。

    女性群体消费力崛起的同时,对产品质量和价格的判断也在提高,如果产品竞争力不足,主播说服力不强,“小哥哥”直播,只会是一阵风吹过。目前,就有不少“小哥哥们”的直播存在争议,“毫无营养”、“擦边球”、虚假宣传等问题,也在不断消耗着消费者的好感。

    毕竟,优秀的主播、扛打的产品、匹配的平台,三者的有效配合,才是品牌自播的归途。

    应受访者要求,文中姜姜、汪汪为化名。

    作者:纪校玲,编辑:金玙璠

    来源公众号:开菠萝财经(ID:kaiboluocaijing),关注直播电商、新消费,专注深度内容。

    本文由人人都是产品经理合作媒体@开菠萝财经 授权发布。未经许可,禁止转载。

    题图来自Unsplash,基于CC0协议。

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

    {{{path> 收藏 已收藏 {{ postmeta.bookmark }} {{{path> 点赞 已赞 {{ postmeta.postlike }}

  • 大模型带来的Web复兴,会是昙花一现吗?

    设计动态 2023-04-22
    大家是不是对GPT、对话式AI、生成式AI之类的话题,已经有点审美疲劳了? 写这篇文章之前,我有点犹豫,究竟还要不要接着讨论GPT了。最终决定写,是觉得个人用户、开发者,以及正在紧锣密鼓训大模型的AI公司和云厂商,还是有必要提前琢磨一下这个事情——大模型能力要

    最近的AIGC应用给Web带来了久违的活力,因此也有人认为Web端要复兴了。但不管是从用户习惯上还是商业化潜力上,移动端才是模型服务商和云厂商的下一个战场。本文作者对此进行了分析,一起来看看吧。

    大家是不是对GPT、对话式AI、生成式AI之类的话题,已经有点审美疲劳了?

    写这篇文章之前,我有点犹豫,究竟还要不要接着讨论GPT了。最终决定写,是觉得个人用户、开发者,以及正在紧锣密鼓训大模型的AI公司和云厂商,还是有必要提前琢磨一下这个事情——大模型能力要从云入端,究竟什么时候做、怎么做?

    一、AIGC热潮带来Web复兴,但大众更爱移动端 我们看到,大多数基于大模型的AIGC应用,都选择了Web端接入。

    微软第一时间推出了带有对话(Chat)功能的必应(Bing),更新了Edge浏览器,嵌入到Microsoft 365 应用中。国内,高校机构推出的MOSS(复旦大学)、SegGPT(智源),企业推出的文心一言(yiyan.baidu.com)、通义千问(tongyi.aliyun.com),都要从官网入口访问。

    图像和视频类的生成式AI,比如Midjourney、Stable Diffusion、DALLE2,以及视频平台Make-A-Video(Meta)、Imagen Video(谷歌)等,也是如此。

    有业内人士认为,生成式AI带来了Web的复兴。

    当然,市面上也有通过小程序、App等访问的AIGC产品,大多通过调用基础模型的API来提供服务。

    但受限于网络传输、算力等,领先的技术能力都不得不打折扣,比如只能生成很短的一句话文本,手机app的作图效果一般,加载速度很慢经常排队掉线卡顿……

    这是因为大模型的大量计算,还是要通过云服务来完成,Web页面的承载能力比较大,加载速度快,还不用考虑流量损耗。

    所以,想体验大模型强大的能力,目前还是以PC Web端+云服务更佳。

    但是,大模型的商业化潜力,还是在移动端。

    大家可能都记得,去年底AI作图就火爆过,意间 AI 绘画、YUAN 初等多款具有 AI 作图功能的移动端小程序,用户量和付费激增。意间 AI 绘画的官方数据显示,上线不到两个月,用户量增长了 117 万人。

    大部分人也都更希望,便捷、低门槛地体验AIGC。要使用GPT-4、New bing、DALLE等应用,注册、登录、付费的一系列操作,都非常麻烦,劝退了不少人。

    国内的大模型应用,移动端也明显很受期待。比如就有人抓住了“官方没有app”这个“时间差”,造出了“文心一言”盗版 App,吓得百度赶紧出来声明:凡是在App Store和各种应用商店看到的“文心一言”App都是假的,凡是“文心一言”收费下载、付费会员都是骗子!

    显而易见,场景化、轻量化的移动端应用,用户又喜欢,又能付费赚到钱,如果官方不搞,投机客/骗子都要来搞。

    无论是从用户体验的角度,还是大模型服务普及化的需要,以及回收训练成本的商业化考量,移动端应用都是一块不能轻言放弃的阵地。

    既然如此,为什么各大基础模型服务商,就是不早点抓住这个机会呢?我们什么时候才能用上和Web版一样强大的移动AI应用呢?

    二、千呼万唤不出来,基础模型服务商在想啥? 基础大模型的服务商,比如OpenAI、谷歌、百度、阿里以及各类研究院所,就是不去吃移动端应用这块蛋糕。

    除了大家都知道的移动端侧计算能力限制之外,还有其他考量:

    1)产品

    基础模型往往技术和能力比较超前,产品化不是最优先考虑的,尤其移动端应用要适配各种系统、机型、配置,更不可能投入太大的人力、物力。

    OpenAI 的联合创始人 Sam Altman就说过,ChatGPT 是一个糟糕的产品,只是这个产品蕴含着很大价值,所以人们愿意忍受。觉得Web不好用?那你先忍忍吧。

    2)用户

    别看全民热议生成式AI,但真正坚持使用并愿意付费的,还是一小撮早期客户,包括技术狂热者和专业人士,比如程序员、插画师。

    他们大多会将生成式AI当作生产力工具,用于研究、编程、办公、设计、游戏制作、软件开发等,还要跟其他专业软件相结合来使用,比如生成图片之后再通过Photoshop增强,还是要用到PC、一体机等设备,PC Web端比移动App有更强的可编辑性,更能满足这部分群体的需求。

    3)商业化

    目前基础大模型的商业模式,以API为主,需要一定的开发经验,更适合极客和开发者,深度开发集成部署等工作,很少会通过移动端来完成,所以模型服务商自然也就没有紧锣密鼓去适配移动端的动力。

    三、大模型千帆竞渡,移动端是商业化必争之地 既然如此,为什么还要做移动端呢?一个很表层的答案是:大众需要。

    能够真正引发全民体验热潮的,还是那些能够通过社交软件分享、小程序、App等形式,低成本快速触达的能力,不需要什么“智能涌现”,更在乎有趣、好玩。

    往深了说,大模型技术被视为“新工业革命”的引擎,要发挥效应,必须将技术能力更好地集成到产品和服务中去。此时,移动端能够提供至少三重价值:

    第一,规模落地。

    中国互联网络信息中心发布第51次《中国互联网络发展状况统计报告》中,我国10.67亿网民,使用手机上网的比例为99.8%,移动端用户已经远远超过了PC端的用户,要提升生成式AI的应用范围,移动端应用必不可少。

    第二,商业潜力。

    高科技行业的主流市场,是由“实用主义者”组成的,相比技术的前沿性、炫酷感,他们更看重技术解决方案的可靠、稳定、性价比、配套服务等。移动端的广泛普及度、即时访问、便捷低成本的优势,可以让AI以更短的路径触达用户,在移动端应用AI技术是大势所趋。

    开发者眼中的AIGC应用是这样的:

    (OpenAI发布会演示的编程能力)

    大众眼中的AIGC应用是这样的:

    (某GPT类应用平台截图)

    第三,市场壁垒。

    大模型的商业化路径之一,是走向产业,走向ToB,将大模型能力封装为AI解决方案,参与到千行百业的数字化、智能化进程中。

    如今头部科技公司、云厂商都在炼大模型,很多直接对标GPT-3.5,没有显著的差异化价值,很难与业界领先水平拉开差距。

    云厂商要打开ToB市场,移动端应用工具与能力是非常有吸引力的。

    近年来,不仅消费类、服务型企业,在不断加强移动端侧的布局和产品能力,一些传统的企业和机构,比如工业制造、政务银行等,无论是在内部生产管理中移动化,也推出了更多移动应用来更好地服务终端用户。如果直接在云上端到端用好大模型,比如训练开发环节直接调用云端的大模型和AI算力资源,完成后,一键分发到智能手机等终端上,可以大大减少工作量。

    (某GPT 类应用开发平台)

    互联网的演进之路,已经说明,无论To B还是To C行业,都在追求越来越集约精简的终端硬件、越来越低门槛的交互入口、越来越轻盈的软件应用。

    所以说,大模型从云入端,是模型服务商实现商业化的必争之地。

    四、从云入端,一条天路 高瞻远瞩如OpenAI和DeepMind,照样有商业化的要求。赚钱嘛,不寒掺。可是,大模型由云入端,这个钱还真没那么好赚。非不为也,实不能也。

    云计算、AI能力要进入移动终端设备,所面对的是一条天路:

    首先,一些大型的生成式AI应用,运行环境在云上,要经过网络传输,而移动端的设备能力、网络环境,是很多样且不稳定的,比如从5G蜂窝网络转移到室内宽带,或者在高架桥、地铁等特殊环境,都有可能让生成过程中断或失败,影响到端侧体验。

    其次,生成式AI应用的计算量比较大,在端侧加载渲染运行时,比如智能手机CPU会有比较高的负载,出现卡顿、发热、电量损耗等情况,如果让AI改一篇文档画一张图就咔咔掉电,当然不能接受。

    此外,把AI深度集成到业务中,必须通过云计算,而云端开发环境和端侧是不同的操作系统。这意味着,开发者要进行二次开发或迭代开发,完成之后才能进行不同终端下的触达,同事要考虑不同终端的兼容性,这就提升了AI云应用的风险成本、人力成本、时间成本。要保证集成之后的应用效果,需要云平台有一整套完整的产品服务和工具来支撑快速搭建、验证、部署分发。

    另外,云侧和端侧的架构不同,也导致算力割裂,云端一体的AI应用开发要充分结合端侧算力和云上算力,一部分应用场景搭建在端,一部分搭建在云,这就给云厂商带来了比较大的技术难题:如何提供稳定一致的底层环境?

    天路难行亦需行。大家都知道,云计算靠基础设施IaaS层是很难赚到钱的,云厂商炼大模型,本质上是希望提升软件的先进性,进而调动SaaS服务的商业价值。

    要让个人用户和企业,都得到简单、易用、低门槛的大模型能力,云厂商不仅要训练基础模型,还需要在产业链上游,就解决AI应用从云到端的一系列技术难题,为开发者和产业用户提供移动AI开发能力,才能让大模型在端侧爆发。

    各种形态的大模型应用百花齐放,这个新技术才能真正迎来商业化的奇点。

    作者:藏狐

    来源公众号:脑极体(ID:unity007),从技术协同到产业革命,从智能密钥到已知尽头。

    本文由人人都是产品经理合作媒体 @脑极体 授权发布,未经许可,禁止转载。

    题图来自 Unsplash,基于 CC0 协议

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

    {{{path> 收藏 已收藏 {{ postmeta.bookmark }} {{{path> 点赞 已赞 {{ postmeta.postlike }}

  • C端工具SaaS转型B端业务SaaS的成功实践

    设计动态 2023-04-22
    “相对于B端业务SaaS,C端工具SaaS的产品属性要远大于服务属性,在解决用户需求上,C端工具SaaS更多从用户需求直接入手,而不是先去关注垂直行业的目标客户群体。在PLG的增长方式带来了海量用户群体涌入之后,升级转型B端可以拓宽更多垂直行业和营收能力,相应

    近年来不少C端的SaaS产品正在向B端转型,希望拓宽更多垂直行业和营收能力,但同时也会面临着市场品牌、产品生态、业务战略的挑战。C端工具SaaS在转型B端产品和服务过程中需要关注哪些问题?本文作者以一个转型成功的案例进行切入分析,希望对你有帮助。

    “相对于B端业务SaaS,C端工具SaaS的产品属性要远大于服务属性,在解决用户需求上,C端工具SaaS更多从用户需求直接入手,而不是先去关注垂直行业的目标客户群体。在PLG的增长方式带来了海量用户群体涌入之后,升级转型B端可以拓宽更多垂直行业和营收能力,相应也会面临着市场品牌、产品生态、业务战略的挑战。”

    在2020年至2022年疫情期间的常态化居家或异地办公,助推了 远程办公、远程IT运维、远程教学 等诸多业务场景下客户的市场教育,例如腾讯会议、企业微信、钉钉等都是比较优秀的工具SaaS产品。

    C端工具SaaS往往是以解决问题为导向开始切入场景,而不是先从目标客户开始,这也决定了C端工具SaaS的产品属性要大于服务属性。 国内客户对工具SaaS价格较为敏感,大部分用户习惯免费使用,而且使用场景比较有局限性。

    有不少工具SaaS厂商开始转向了付费能力更强的B端客户群体,例如Dropbox,从C端云存储服务转型为B端企业级云存储服务;Slack,最初是C端视频通话工具,后来转型为B端企业级在线会议工具;再到国内的腾讯会议,2023年4月4日之后调整了免费版用户的使用权益,转向营收更强的B端客户群体。

    那么, C端工具SaaS在转型B端产品和服务过程中需要关注哪些问题 ,我们以某远程连接头部SaaS服务商(以下简称A厂商)为例,来看看他们在转型B端产品之际都做了哪些动作,以期可以对类似企业或产品管中窥豹。

    01 国内企业数字化进程较慢,亟需成熟解决方案 当存量市场客户足够稳定和牢固,而且客户群体也不再仅仅满足于现有产品功能时, 企业在增量市场做业务拓展,就需要有相应的业务战略来匹配已经发生的客户需求变化 。

    C端工具SaaS解决的更多是泛行业共性需求,所以较少重点关注垂直行业中细分客户的差异与运营效果,但是垂直行业的数字化市场空间足够广阔。

    A厂商的主要用户群体虽然 偏C端 ,但是在服务用户的过程中也会面临很多企业群体,在接触B端客户的合作过程中自然会沉淀很多解决方案。

    02 第二增长曲线创新,用ToC来拉动ToB 不管是传统软件转型SaaS,还是C端工具SaaS向B端升级转型,都要在当前业务足够强劲的时候开展, ToB是一个长期服务的过程,也是个慢生意。

    从下图来看, 在第一曲线业务蓬勃发展之际,第二曲线业务的破局点要尽早在第一曲线的极限点之前迅速反应摸索,届时双曲线的业务战略还可以形成更好的优势互补。

    工具SaaS应该在既有线性业务的基础上通过加快标准化产品的迭代 ,用更低的成本为客户提高效率,提高标准化交付能力,同时降低服务成本。 为B端第二曲线新业务提供了足够的粮草供给,以及时间和空间。

    在第一曲线既有业务上,标准SaaS产品持续升级,不断丰富产品生态。另一方面要去探索新方向,寻求新的增长空间,甚至是聚焦某几个行业或领域,都为第二曲线B端业务打下了扎实的竞争壁垒。

    03 工具SaaS的B端探索 从广义上看,只要能为企业提供云计算和软件结合的服务都可以算作SaaS。SaaS的分类有很多种方式, 业内惯用工具SaaS和业务SaaS来做区分 。其中,工具SaaS包含有协作工具、设计工具、通讯工具、项目管理工具、视频会议工具等。

    在转型B端的过程中,A厂商需要躬身入局从市场、营销、销售、产品、客户成功、组织结构等做相应的升级。

    我们选取其中的部分板块来看看A厂商在转型B端过程中的变化。

    1. 从产品驱动增长到销售/市场驱动增长 由于A厂商的产品都是基于SaaS的商业模型,且C端SaaS产品均 提供永久免费版本 ,经过多年的市场积累,依靠 PLG(产品驱动增长) 的营销增长理念,获得了 7000多万 用户、 70多万家 企业的认可,拥有着足够丰富的C端和B端客户资源。

    客户多、粘性强、生态宽,为转型B端提供了足够丰富的“弹药”,由于B端客户更关注产品的整体解决方案和应用落地, 在营销增长上必然不会像PLG模式一样爆发增长,转而需要关注SLG(销售驱动增长)和MLG(营销驱动增长)的方式,这对市场侧和销售侧的要求会更高。

    在以前PLG营销增长策略下,B端客户和C端用户都是划分为同样的市场营销模型,但是目前需要对B端客户进行了详尽的 用户分层以及画像描述 ,便于销售人员对 不同垂直行业、不同业务规模、不同客户群体 进行针对性销售转化。

    销售侧 由原先的聚焦SMB(中小微客户)客户群体,转变为同时兼顾LA(中型客户)和KA(大客户)客户群体, 随之而来收入结构也发生了明显改变。

    2. 重产品更要重服务 ToB最关键的点在于服务。C端工具SaaS的产品属性强,而B端客户的服务属性强。

    C端工具SaaS因为其使用场景的特殊,客户使用频次和复购差异较大,从产品价格上也可以看到一些端倪(按月付费居多,用完即走)。

    B端客户从市场线索获取、售前跟踪、转化,到售后的实施培训、产品部署、续费增购等,都需要配套长期的服务,才可能在CAC(获客成本)、ARR(年经常性收入)、LTV(客户终身价值)、NDR(净收入留存率)等指标上有较好的表现。

    C端工具SaaS的产品经理,既是运动员也是教练员,可以对产品有足够高频使用和深入场景的理解;但是B端产品经理,因为有很多使用场景是产品经理所无法体验到的,就需要扎根在客户群体中调研,所以原先既定的产品开发流程也会随之而改变, 最终从交付工具升级为交付解决方案 。

    为了做好B端转型,A厂商在产品侧同步进行了产品经理和研发团队的改变,打破以前的既定开发模型,甚至成立了冲锋队,随时响应B端客户的产品需求。B端客户的产品或解决方案不仅要能落地,还得要用的好,才会为后续的续费和增购创造机会。

    3. 从SaaS到生态,串联之外还要并联 最后,在 B端产品侧也少不了产品线的整体升级和生态打造。

    C端工具SaaS的用户群体可能会有目标用户定义不准确的问题,前文讲过 工具SaaS更多是先从解决问题为导向展开服务,而不是先从目标用户开始,所以用户会存在低频使用和流失,缺少足够丰富高频的场景来增加用户的粘性。

    而B端企业客户更注重一体化解决方案,而非工具本身 ,这对C端工具SaaS的B端转型提出了更高要求,如果说原先解决方案是“串联”形式,那么现在要考虑更多的“并联”需求,当垂直行业边界越来越明显的时候,SaaS厂商 必不可少还会面临客户定制化需求, 解决客户定制化需求往往有以下这几种方式:

    厂商自身的PaaS能力(韧性大) 周边ISV生态厂商(边界宽) OEM软件代工方式(成本低) 自建项目开发团队(成本高) 如果工具SaaS厂商能够基于自己强大的产品支持,能够向外部用户辐射连接的核心价值的话,相信能更好的帮用户实现业务增效,提振业务能力。

    04 最后的话 从解决问题为导向开始,C端工具SaaS覆盖了泛行业用户群体;在转型B端之际,需要反过来思考目标客户群体是谁,如何为客户带来更好的解决方案,从“用户”到“客户”的跃迁,还需要 挖掘不同行业的垂直类客户需求和销售打法。

    工具SaaS厂商开始B端战略转型,如果可以在产品层面大幅拓展形成业务生态, 可以满足垂直B端客户场景, 向外部B端客户辐射的进程也会迅速展开,为企业提供数字化转型提供了更多可能。

    我们今天以远程连接SaaS服务商为例,展开讨论了C端工具SaaS转型B端业务SaaS的成功实践,相信也能给您带来一些成功实践的思考。

    如果您有更多观点,欢迎和我一起讨论交流。

    专栏作家

    王钰,微信公众号:钰见SaaS,人人都是产品经理专栏作家。物畅网联合创始人,9年ToB行业互联网运营经验,主导物流SaaS、医药SaaS、家居SaaS等多个垂直行业SaaS解决方案。

    本文原创发布于人人都是产品经理,未经许可,禁止转载。

    题图来自 Unsplash,基于CC0协议。

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

    {{{path> 收藏 已收藏 {{ postmeta.bookmark }} {{{path> 点赞 已赞 {{ postmeta.postlike }}

  • 万字长文!带你从零开始入门AI绘画神器Stable Diffusion

    UI交互 2023-04-22
    一、本地部署 Stable Diffusion1. 前言目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡...

    一、本地部署 Stable Diffusion 1. 前言

    目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡、内存)。

    E 和 Midjourney 相比,Stable Diffusion 最大的优势是开源,这意味着 Stable Diffusion 的潜力巨大、发展飞快。由于开源免费属性,SD 已经收获了大量活跃用户,开发者社群已经为此提供了大量免费高质量的外接预训练模型(fine-tune)和插件,并且在持续维护更新。在第三方插件和模型的加持下,SD 拥有比 Midjourney 更加丰富的个性化功能,在经过使用者调教后可以生成更贴近需求的图片,甚至在 AI 视频特效、AI 音乐生成等领域,Stable Diffusion 也占据了一席之地。

    Stable Diffusion 是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述在提 Stable Diffusion 就能生成符合你要求的逼真的图像!

    2. 电脑配置

    电脑配置最核心的关键点:看显卡、看内存、看硬盘、看 CPU。其中最重要的是看显卡。N 卡(英伟达 Nvida 独立显卡)首选,效率远超集显/AMD/Intel 显卡和 CPU 渲染,最低 10 系起步,体验感佳用 40 系,显存最低 4G,6G 及格,上不封顶;内存最低 8G,16G 及格,上不封顶;硬盘可用空间最好有个 500G 朝上,固态最佳。

    系统要求:支持 Win10/Win11/macOS(仅限 Apple Silicon,Intel 版本的 Mac 无法调用 Radeon 显卡)和 Linux 系统,苹果版 SD 兼容的插件数量较少,功能性不及 Windows 与 Linux 电脑。

    如果身边没有合适的电脑可以考虑购买云主机,比如腾讯 GPU 云服务器。若无法使用独立显卡和云服务,亦可修改启动配置,使用 CPU 渲染(兼容性强,出图速度慢,需要 16G 以上内存)。

    从图中可看出,与 AMD 或英特尔的任何产品相比,Nvidia 的 GPU 提供了卓越的性能--有时是以巨大的优势。随着 Torch 的 DLL 修复到位,RTX 4090 的性能比带有 xformers 的 RTX 3090 Ti 高出 50%,而没有 xformers 的性能则高出 43%。生成每张图片只需要三秒多。

    3. 安装方法

    SD 开源地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

    目前大家普遍采用的 Stable Diffusion Web UI 是发布于开源程序分享网站 Github 的 Python 项目,和平常软件安装方法有所不同,不是下载安装即可用的软件,需要准备执行环境、编译源码,针对不同操作系统(操作系统依赖)、不同电脑(硬件依赖)还有做些手工调整,这需要使用者拥有一定的程序开发经验(可以现学),已经有很多大佬们写了详细的安装教程。(如 https://www.tonyisstark.com/846.html @托尼不是塔克)

    如果像我一样是小白不会装,现在可以直接使用大佬们做的一键启动程序包,比如国内@秋葉 aaaki 大大开发的整合包,极大的降低了安装门槛(强烈推荐!)

    (详见 https://www.bilibili.com/video/BV1ne4y1V7QU )一键启动包只是封装了可视化的一键界面,不影响出图效果,只是降低了本地部署的门槛。

    Nvidia 显卡用户须知:在使用 SD 前,请登录 Nvidia 官网 https://www.nvidia.cn/geforce/drivers/ 下载安装对应显卡最新版驱动程序 ,与 https://blog.csdn.net/weixin_44177494/article/details/120444922 显卡支持的最新版 CUDA 驱动。

    4. 启动 SD

    进入 SD 安装文件夹,双击 webui-user.bat,待其加载完成方可使用浏览器(Chrome/Edge)登录默认的加载 IP http://127.0.0.1:7860/

    5. 界面汉化

    如果需要中文语言包,可以下载如下中文语言包扩展,下载界面网址为: https://github.com/VinsonLaro/stable-diffusion-webui-chinese

    方法 1:通过 WebUI 拓展进行安装

    打开 stable diffusion webui,进入"Extensions"选项卡 点击"Install from URL",注意"URL for extension's git repository"下方的输入框 粘贴或输入本 Git 仓库地址 https://github.com/VinsonLaro/stable-diffusion-webui-chinese 点击下方的黄色按钮"Install"即可完成安装,然后重启 WebUI(点击"Install from URL"左方的"Installed",然后点击黄色按钮"Apply and restart UI"网页下方的"Reload UI"完成重启) 点击"Settings",左侧点击"User interface"界面,在界面里最下方的"Localization (requires restart)",选择"Chinese-All"或者"Chinese-English" 点击界面最上方的黄色按钮"Apply settings",再点击右侧的"Reload UI"即可完成汉化 二、界面基础 1. 了解界面

    接下来是具体的使用方法简介。目前 SD 并不存在通行可靠的使用规范,每个人的电脑配置、需求都不尽相同,cpkd/Safetensors 大模型、VAE、embeding、lora 等 AI 模型、各类插件、提示词、输出参数的组合牵一发则动全身,需要大家有足够的耐心查阅插件开发者的说明文档和来自 https://civitai.com/ 等分享网站的使用心得 ,大家可以先到 civitai 上搜索中意的图例,复用原作者的出图提示词、参数和模型,再以此修改,这样学习的效果最为直观。

    文生图:根据文本提示生成图像

    图生图:根据提供的图像作为范本、结合文本提示生成图像

    更多:优化(清晰、扩展)图像

    图片信息:显示图像基本信息,包含提示词和模型信息(除非信息被隐藏)

    模型合并:把已有的模型按不同比例进行合并生成新模型

    训练:根据提供的图片训练具有某种图像风格的模型

    描述语分为正向/负向描述,它们也叫 tag(标签)或 prompt(提示词)

    正面提示词:相比 Midjourney 需要写得更精准和细致,描述少就给 AI 更多自由发挥空间。

    负面提示词:不想让 SD 生成的内容。

    正向:masterpiece, best quality, 更多画质词,画面描述

    反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根据画面产出加不想出现的画面。

    生成下面的 5 个小图标(从左到右依次分别是)

    复原上次生成图片的提示词(自动记录) 清空当前所有提示词 打开模型选择界面 应用选择的风格模板到当前的提示词 存档当前的正反向提示词

    2. 采样方法

    建议根据自己使用的 checkpoint 使用脚本跑网格图(用自己关心的参数)然后选择自己想要的结果。 懒得对比:请使用 DPM++ 2M 或 DPM++ 2M Karras(二次元图)或 UniPC,想要点惊喜和变化,Euler a、DPM++ SDE、DPM++ SDE Karras(写实图)、DPM2 a Karras(注意调整对应 eta 值) eta 和 sigma 都是多样性相关的,但是它们的多样性来自步数的变化,追求更大多样性的话应该关注 seed 的变化,这两项参数应该是在图片框架被选定后,再在此基础上做微调时使用的参数。 3. 采样步数

    稳定扩散通过从充满噪音的画布开始创建图像,并逐渐去噪以达到最终输出。此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是 25 个步骤。以下是不同情况下使用哪个步骤编号的一般指南:

    如果您正在测试新的提示,并希望获得快速结果来调整您的输入,请使用 10-15 个步骤 当您找到您喜欢的提示时,请将步骤增加到 25 如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到 40

    面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。

    平铺:生成一张可以平铺的图像

    高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中该选项会有一系列新的参数,

    其中重要的是:

    放大算法:Latent 在许多情况下效果不错,但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 对 0.5 以下的重绘幅度有较好支持。

    放大倍数: 通常 2 倍即可

    重绘幅度:决定算法对图像内容的保留程度。该值越高,放大后图像就比放大前图像差别越大。低 denoising 意味着修正原图,高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些,0 什么都不会改变,1 会得到一个完全不同的图像。具体的执行步骤为 重绘强度 * 重绘步数。

    长宽尺寸(分辨率)

    长宽尺寸并非数值越大越好,最佳的范围应在 512 至 768 像素之间,比如正方形图多是 512*512 和 768*768,人像肖像 512x768,风景画 768×512,可按比例加大或减小,这个值必须是 8 的倍数。如果不希望主题对象出现重复,应在此范围内选择适当的尺寸。如果需要更高分辨率的图片,建议先使用 SD 模型生成图片,然后再使用合适的模型进行 upscale。

    生成批次:每次生成图像的组数。一次运行生成图像的数量为生成批次 * 每批数量。

    每批数量:同时生成多少个图像。增加这个值可以提高性能,但你也需要更多的 VRAM。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1。

    提示词相关性 CFG:较高的数值将提高生成结果与提示的匹配度。 OpenArt 上使用的默认 CFG 是 7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于 5。

    CFG 量表可以分为不同的范围,每个范围都适合不同的提示类型和目标

    CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用 CFG 710:推荐用于大多数提示。创造力和引导一代之间的良好平衡 CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时 CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量 CFG >20:几乎无法使用 随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。

    3. 提示词生成

    开始不知道怎么写提示词,可以先参考优秀的风格模板作为起手式,还可以借助描述语工具和网站,多出图多研究,掌握了出图规律,慢慢就可以自己写提示词啦,写提示词要尽可能写的详细。跑 AI 的过程就像抽卡,抽出一堆卡,选出你审美范畴里觉得好看的。

    找 tag 关键词网站:

    可参考 Civitai | Stable Diffusion models, embeddings, hypernetworks and more 中优秀作品的提示词作为模板。

    其他网站还有:

    ChatGPT: https://chat.openai.com/ AI Creator: https://ai-creator.net/arts NovelAI: https://spell.novelai.dev 魔咒百科词典: https://aitag.top AI 咒术生成器: https://tag.redsex.cc/ AI 词汇加速器 AcceleratorI Prompt: 词图 PromptTool: https://www.prompttool.com/NovelAI 鳖哲法典: http://tomxlysplay.com.cn/#/ Danbooru tag:Tag Groups Wiki | Danbooru (donmai.us) 4. Prompt 格式优化

    第一段:画质 tag,画风 tag

    第二段:画面主体,主体强调,主体细节概括(主体可以是人、事、物、景)画面核心内容

    第三段:画面场景细节,或人物细节,embedding tag。画面细节内容

    第二段一般提供人数,人物主要特征,主要动作(一般置于人物之前),物体主要特征,主景或景色框架等

    举个例子:(具体场景还是要灵活应用,多尝试,找到合适自己的节奏和风格)

    第一段:masterpiece, best quality, 4k, ( Pixar - style :1.4)

    第二段:1boy,(Cute,handsome,wearing outdoor sportswear :0.7), 3D,(Face close-up :1.2), (at night, surrounded by glowing plants, flowers, flying fireflies, bonfires), (Ultra detailed, aesthetic, beautiful composition, rich bright colors, volumetric soft light).

    第三段:Inspired by Alice in Wonderland, magic, fairy tales. unreal Engine, octane render, cuteness render, awe inspiring, beautiful,

    5. Prompt 规则细节

    ①越靠前的 Tag 权重越大。

    ②生成图片的大小会影响 Prompt 的效果,图片越大需要的 Prompt 越多,不然 Prompt 会相互污染。

    ③Stable-diffusion 中,可以使用括号人工修改提示词的权重,方法如下:

    (word) - 将权重提高 1.1 倍 ((word)) - 将权重提高 1.21 倍(= 1.1 * 1.1) [word] - 将权重降低至原先的 90.91% (word:1.5) - 将权重提高 1.5 倍 (word:0.25) - 将权重减少为原先的 25%

    请注意,权重值最好不要超过 1.5

    ④Prompt 支持使用 emoji,可通过添加 emoji 达到表现效果。如?形容表情,?可修手。

    ⑤“+” , “ AND” , “|” 用法:“+”和“ AND ”都是用于连接短 Tag,但 AND 两端要加空格。"+"约等于" and ";“|” 为循环绘制符号(融合符号)(Prompt A: w1)|(Prompt B: w2)

    以上表达适用于 WebUI,w1、w2 为权重。AI 会对 A、B 两 Prompt 进行循环绘制。可往后无限加入 Prompt。

    ⑥tag 不一定是多么充满细节,只要模型稳定。小图+高分辨率重绘。800*400 的图变成 1600*800,初识小图减少崩坏概率。

    ⑦关键词最好具有特异性,譬如 Anime(动漫)一词就相对泛化,而 Jojo 一词就能清晰地指向 Jojo 动漫的画风。措辞越不抽象越好,尽可能避免留下解释空间的措辞。

    三、了解模型 1. 下载模型

    主流模型下载网站:

    Hugging face 是一个专注于构建、训练和部署先进开源机器学习模型的网站: https://huggingface.co/ Civitai 是一个专为 Stable Diffusion AI 艺术模型设计的网站,是非常好的 AI 模型库: https://civitai.com/ 主流模型被删除可以去备用模型站下载: https://www.4b3.com

    2. 模型选择

    如何选择合适模型是最重要的。

    从你想画的风格(写实、二次元、卡通盲盒等)来选择大模型,再搭配合适的 Lora。

    ①Checkpoint

    体积较大,也被称为大模型,不同的大模型使用不同的图片训练而成,对应不同的风格,相当于最底层的引擎。有时候需要大模型+VAE+emb+Lora 联合搭配使用以达到需要的效果。

    下载的大模型可放置于 SD 文件夹/models/Stable-diffusion 内。

    ②Lora

    Lora 是特征模型,体积较小,是基于某个确定的角色、确定的风格或者固定的动作训练而成的模型,可使用权重控制,确定性要远强于 embedding。embedding 和 Lora 有功能交集的部分,也有互相不可取代的地方。

    在 ckpt 大模型上附加使用,对人物、姿势、物体表现较好。在 webui 界面的 Additional Networks 下勾线 Enable 启用,然后在 Model 下选择模型,并可用 Weight 调整权重。权重越大,该 Lora 的影响也越大。不建议权重过大(超过 1.2),否则很容易出现扭曲的结果。

    多个 Lora 模型混合使用可以起到叠加效果,譬如一个控制面部的 Lora 配合一个控制画风的 Lora 就可以生成具有特定画风的特定人物。因此可以使用多个专注于不同方面优化的 Lora,分别调整权重,结合出自己想要实现的效果。

    LoHA 模型是一种 LORA 模型的改进。

    LoCon 模型也一种 LORA 模型的改进,泛化能力更强。

    下载的 Lora 可放置于 SD 文件夹/models/Lora 内。

    ③VAE

    VAE 模型类似滤镜,对画面进行调色与微调,一般需要搭配相应的模型一起使用。(如果图片比较灰,颜色不太靓丽,就可能是没加载 vae)

    下载的 VAE 可放置于 SD 文件夹/models/VAE 内。

    ④Textual inversion(embedding)

    关键词预设模型,即关键词打包,即等于预设好一篮子关键词 a,b,c 打包,进而来指代特定的对象/风格。也可以通过下载 Textual inversion 进行使用。

    下载的 embedding 可放置于 SD 文件夹/embeddings 内。

    四、ControlNet ControlNet 使得 SD 从玩具变成做商业项目的神器,接下来会重中之重来详细讲解一下。

    ControlNet 是斯坦福大学研究人员开发的 Stable Diffusion 的扩展,使创作者能够轻松地控制 AI 图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成。ControlNet 可以概括为一种简单的稳定扩散微调方法。ControlNet 的工作原理是将可训练的网络模块附加到稳定扩散模型的 U-Net (噪声预测器)的各个部分。Stable Diffusion 模型的权重是锁定的,在训练过程中它们是不变的。在训练期间仅修改附加模块。

    1. 安装

    从 github 上找到并把网址填到扩展里安装,安装完后记得点击 Apply and restart UI( https://github.com/Mikubill/sd-webui-controlnet )

    将 ControlNet 模型(.pt、.pth、.ckpt 或.safetensors)放入 models/ControlNet 文件夹。 打开“txt2img”或“img2img”选项卡,写下您的提示。 按“刷新模型”,选择要使用的模型。(若没有出现,请尝试重新加载/重新启动 webui) 上传您的图像并选择预处理器,完成。 目前,它支持完整型号和修剪型号。使用 extract_controlnet.py 从原始.pth 文件中提取 controlnet。

    预训练模型: https://huggingface.co/lllyasviel/ControlNet/tree/main/models

    2. 界面介绍

    开启 :选中此框以启用 ControlNet。

    颜色反转:交换黑色和白色。例如,它可以在您上传涂鸦时使用。ControlNet 需要黑色背景和白色涂鸦。如果您使用白色背景的外部软件创建涂鸦,则必须使用此选项。如果您使用 ControlNet 的界面创建涂鸦,则不需要使用此选项。

    RGB 转为 BGR :用于检测用户导入图像中的颜色信息。有时图像中的颜色信息可能与扩展所期望的不同。如果您上传图像并使用预处理,则无需选中此框。

    低显存:这将减缓 ETA 进程,但有助于使用更少的计算空间(显存小于 8 GB VRAM 建议使用),检查您是否用完了 GPU 内存,或者想要增加处理的图像数量。

    推测模式:ControlNet 自动识别图像(不需要提示和负面提示)与选定的预处理器。它强制 ControlNet 编码器遵循输入控制图(如深度、边缘等),即使没有提示也是如此。使用此模式时使用更高的步进,例如 50,但是这个效果不一定好。

    权重(Weight):代表使用 ControlNet 生成图片时被应用的权重占比。

    引导介入时机(Guidance Start):在理解此功能之前,我们应该先知道生成图片的 Sampling steps 采样步数功能,步数代表生成一张图片要刷新计算多少次,Guidance Start(T) 设置为 0 即代表开始时就介入,默认为 0,设置为 0.5 时即代表 ControlNet 从 50% 步数时开始介入计算。

    引导退出时机(Guidance End):和引导介入时机相对应,如设置为 1,则表示在 100%计算完时才会退出介入也就是不退出,默认为 1,可调节范围 0-1,如设置为 0.8 时即代表从 80% 步数时退出介入。

    调整大小模式提供了调整 ControlNet 大小和上传图像的纵横比。

    Just Resize:不保留纵横比的情况下,改变 ControlNet 图像的大小以匹配 Txt2Img 设置的宽度和高度。这包括拉伸或压缩图像以适应指定的尺寸。

    Scale to Fit (Inner Fit):调整 ControlNet 图像的大小以适应 Txt2Image 的尺寸。它将调整图像的大小,直到它能够适应 Txt2Image 设置的宽度和高度。

    Envelope (Outer Fit):调整 Txt2Image 的大小以适应 ControlNet 图像的尺寸。它将调整图像的大小,直到 Txt2Image 设置可以适合 ControlNet 图像。

    画布宽度 和 画布高度 提供手动创建绘图或草图以,不上传任何图像(最好使用 Scribble 预处理器以获得良好的输出)。它会调整空白画布的大小来进行绘制,不会影响上传的原始图像。

    预览图片处理结果:能够快速查看选择的预处理器是如何将上传的图像或绘图转换为 ControlNet 的检测图。对在渲染输出图像之前尝试各种预处理器有用,可节省我们的时间。

    隐藏处理结果:删除预览图像。

    预处理器和模型是 ControlNet 的主要选项。

    预处理器:用于对输入图像进行预处理,例如检测边缘、深度和法线贴图。None 使用输入图像作为控制图。 根据所需的输出,用户可以选择相应的控制方法。

    模型:如果您选择了预处理器,您通常会选择相应的模型。但是它并不限制你混合和匹配所有的预处理器和模型,但是混合多了就会产生负面效果,所以最好使用更加匹配的模型并且越少越好。ControlNet 模型与在 AUTOMATIC1111 GUI 顶部选择的稳定扩散模型一起使用。

    五、预处理器 下面我们介绍几个常用的 ControlNet,并在下面举例说明如何使用它。

    1. Canny 边缘检测

    Canny 通过使用边缘检测器创建高对比度区域的轮廓来检测输入图像。线条可以捕捉到非常详细的信息,但如果你的图像背景中有一些物体,它很可能会检测到不需要的物体。所以背景中物体越少效果越好。用于此预处理器的最佳模型是 control_sd15_canny。

    2. Depth & Depth Leres

    这个预处理器有助于生成输入图像的深度估计。深度通常用于控制图像内物体的空间定位。浅色区域意味着它离用户更近,而深色区域则离用户更远。

    在大图像时它可能会丢失图像内部的细节(面部表情等)。一般会与 control_sd15_depth 模型组合使用。Midas Resolution 函数用于增加或减少 detectmap 中的大小和细节级别。它的级别越高,将使用更多的 VRAM,但可以生成更高质量的图像,反之亦然。

    Depth Leres 有与 Depth 相同的基本概念,但在地图中包含更广泛的范围。但有时它会从图片中捕获了太多信息,可能会生成与原始图像略有不同的图像。所以最好先试用两种预处理器,然后决定哪一种。

    3. HED (Holistically-Nested Edge Detection)

    Hed 可以在物体周围创建清晰和精细的边界,输出类似于 Canny,但减少了噪声和更柔软的边缘。它的有效性在于能够捕捉复杂的细节和轮廓,同时保留细节特征(面部表情、头发、手指等)。Hed 预处理器可用于修改图像的风格和颜色。用于此预处理器的最佳模型是 control_sd15_hed。

    4. MLSD ( Mobile Line Segment Detection)

    MLSD Preprocessor 最适合生成强有力的线条,这些线条能够检测出需要独特和刚性轮廓的建筑和其他人造作品。但是它不适用于处理非刚性或弯曲的物体。MLSD 适用于生成室内布局或建筑结构,因为它可以突出直线和边缘。用于此预处理器的最佳模型是 control_sd15_mlsd。

    5. Normal map

    法线图使用了三种主要颜色(红、绿、蓝),通过不同的角度来精确定位物体的粗糙度和光滑程度。它生成法线图的基本估计,可以保留相当多的细节,但可能会产生意想不到的结果,因为法线图完全来自图像,而不是在 3D 建模软件中构建的。

    法线图有利于突出复杂的细节和轮廓,并且在定位对象方面也很有效,特别是在接近度和距离方面。“Normal Background Threshold”用于调整背景成分。设置一个更高的阈值可以移除背景的远处部分(将其混合成紫色)。降低阈值将命令 AI 保留甚至显示额外的背景元素。用于此预处理器的最佳模型是 control_sd15_normal。

    6. OpenPose

    这个预处理器生成了一个基本的骨骼火柴人形象。这种技术被广泛采用,因为多个 OpenPose 骨架可以组合成一个图像,这有助于引导稳定扩散生成多个一致的主题。骨架图有很多关节点,每个点代表如下图所示。

    7. Scribble

    涂鸦的目的是从简单的黑白线条画和草图生成图像。用户也可以使用“Canvas”选项创建特定大小的空白画布,用于手动素描(也可以直接上传图像)。如果草图和绘图由白色背景上的黑线组成,则需要选中“Invert Input Color”复选框。用于这个预处理器的最佳模型是 control_sd15_openpose。

    8. Segmentation

    分割预处理器检测并将上传的图像分割为同一图像内的段或区域。该模型在生成一组新的图像时,将 detectmap 图像应用于文本提示。用于此预处理器的最佳模型是 control_sd15_seg。

    附录:预处理器与对应模型清单

    总结 使用 AI 绘图工具 Stable Diffusion 确实能提高美术工作者的生产效率,但是请记住:人工智能,没有人工就没有智能。Stable Diffusion 并不是简单易上手的 APP,我们需要花费一定的时间和精力去学习和不断调试,才能使其真正为我们所用,高效产出效果符合需求的图片。

    最后,我为大家简单罗列一下使用 SD 的几项核心能力:

    Github 使用能力,使用者在熟练掌握 Github 开源项目的安装、调参、排错、编程环境设置等技能后,就不会在 SD 报错时六神无主了。 基础出图调试能力,这项能力能够让使用者无需协助就能自行摸索稳定输出可用的图片。 Controlnet 构图能力,基于 Controlnet 的构图控制是美术从业者驾驭 SD 的缰绳,不会用 Controlnet,你只会被随机噪声牵着走。 学习插件并组合使用的能力。 Lora 等小模型的训练能力(进阶)。 如本文对您有帮助,欢迎将其分享给需要的朋友~关注我,接下来会分享更多关于 Stable Diffusion 的进阶内容和商业落地项目。

    站在巨人的肩膀上

    https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis https://muhou.net/document/236688.html https://guide.novelai.dev/guide/prompt-engineering/practice https://zhuanlan.zhihu.com/p/619721909 https://zhuanlan.zhihu.com/p/612572004 https://www.163.com/dy/article/I22IV66G0518R7MO.html https://stable-diffusion-art.com/controlnet/ 欢迎关注作者的微信公众号:生誮果Design

  • 万字长文!带你从零开始入门AI绘画神器Stable Diffusion

    UI交互 2023-04-22
    一、本地部署 Stable Diffusion1. 前言目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡...

    一、本地部署 Stable Diffusion 1. 前言

    目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款。一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diffusion(简称 SD)。MJ 需要付费使用,而 SD 开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡、内存)。

    E 和 Midjourney 相比,Stable Diffusion 最大的优势是开源,这意味着 Stable Diffusion 的潜力巨大、发展飞快。由于开源免费属性,SD 已经收获了大量活跃用户,开发者社群已经为此提供了大量免费高质量的外接预训练模型(fine-tune)和插件,并且在持续维护更新。在第三方插件和模型的加持下,SD 拥有比 Midjourney 更加丰富的个性化功能,在经过使用者调教后可以生成更贴近需求的图片,甚至在 AI 视频特效、AI 音乐生成等领域,Stable Diffusion 也占据了一席之地。

    Stable Diffusion 是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述在提 Stable Diffusion 就能生成符合你要求的逼真的图像!

    2. 电脑配置

    电脑配置最核心的关键点:看显卡、看内存、看硬盘、看 CPU。其中最重要的是看显卡。N 卡(英伟达 Nvida 独立显卡)首选,效率远超集显/AMD/Intel 显卡和 CPU 渲染,最低 10 系起步,体验感佳用 40 系,显存最低 4G,6G 及格,上不封顶;内存最低 8G,16G 及格,上不封顶;硬盘可用空间最好有个 500G 朝上,固态最佳。

    系统要求:支持 Win10/Win11/macOS(仅限 Apple Silicon,Intel 版本的 Mac 无法调用 Radeon 显卡)和 Linux 系统,苹果版 SD 兼容的插件数量较少,功能性不及 Windows 与 Linux 电脑。

    如果身边没有合适的电脑可以考虑购买云主机,比如腾讯 GPU 云服务器。若无法使用独立显卡和云服务,亦可修改启动配置,使用 CPU 渲染(兼容性强,出图速度慢,需要 16G 以上内存)。

    从图中可看出,与 AMD 或英特尔的任何产品相比,Nvidia 的 GPU 提供了卓越的性能--有时是以巨大的优势。随着 Torch 的 DLL 修复到位,RTX 4090 的性能比带有 xformers 的 RTX 3090 Ti 高出 50%,而没有 xformers 的性能则高出 43%。生成每张图片只需要三秒多。

    3. 安装方法

    SD 开源地址: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

    目前大家普遍采用的 Stable Diffusion Web UI 是发布于开源程序分享网站 Github 的 Python 项目,和平常软件安装方法有所不同,不是下载安装即可用的软件,需要准备执行环境、编译源码,针对不同操作系统(操作系统依赖)、不同电脑(硬件依赖)还有做些手工调整,这需要使用者拥有一定的程序开发经验(可以现学),已经有很多大佬们写了详细的安装教程。(如 https://www.tonyisstark.com/846.html @托尼不是塔克)

    如果像我一样是小白不会装,现在可以直接使用大佬们做的一键启动程序包,比如国内@秋葉 aaaki 大大开发的整合包,极大的降低了安装门槛(强烈推荐!)

    (详见 https://www.bilibili.com/video/BV1ne4y1V7QU )一键启动包只是封装了可视化的一键界面,不影响出图效果,只是降低了本地部署的门槛。

    Nvidia 显卡用户须知:在使用 SD 前,请登录 Nvidia 官网 https://www.nvidia.cn/geforce/drivers/ 下载安装对应显卡最新版驱动程序 ,与 https://blog.csdn.net/weixin_44177494/article/details/120444922 显卡支持的最新版 CUDA 驱动。

    4. 启动 SD

    进入 SD 安装文件夹,双击 webui-user.bat,待其加载完成方可使用浏览器(Chrome/Edge)登录默认的加载 IP http://127.0.0.1:7860/

    5. 界面汉化

    如果需要中文语言包,可以下载如下中文语言包扩展,下载界面网址为: https://github.com/VinsonLaro/stable-diffusion-webui-chinese

    方法 1:通过 WebUI 拓展进行安装

    打开 stable diffusion webui,进入"Extensions"选项卡 点击"Install from URL",注意"URL for extension's git repository"下方的输入框 粘贴或输入本 Git 仓库地址 https://github.com/VinsonLaro/stable-diffusion-webui-chinese 点击下方的黄色按钮"Install"即可完成安装,然后重启 WebUI(点击"Install from URL"左方的"Installed",然后点击黄色按钮"Apply and restart UI"网页下方的"Reload UI"完成重启) 点击"Settings",左侧点击"User interface"界面,在界面里最下方的"Localization (requires restart)",选择"Chinese-All"或者"Chinese-English" 点击界面最上方的黄色按钮"Apply settings",再点击右侧的"Reload UI"即可完成汉化 二、界面基础 1. 了解界面

    接下来是具体的使用方法简介。目前 SD 并不存在通行可靠的使用规范,每个人的电脑配置、需求都不尽相同,cpkd/Safetensors 大模型、VAE、embeding、lora 等 AI 模型、各类插件、提示词、输出参数的组合牵一发则动全身,需要大家有足够的耐心查阅插件开发者的说明文档和来自 https://civitai.com/ 等分享网站的使用心得 ,大家可以先到 civitai 上搜索中意的图例,复用原作者的出图提示词、参数和模型,再以此修改,这样学习的效果最为直观。

    文生图:根据文本提示生成图像

    图生图:根据提供的图像作为范本、结合文本提示生成图像

    更多:优化(清晰、扩展)图像

    图片信息:显示图像基本信息,包含提示词和模型信息(除非信息被隐藏)

    模型合并:把已有的模型按不同比例进行合并生成新模型

    训练:根据提供的图片训练具有某种图像风格的模型

    描述语分为正向/负向描述,它们也叫 tag(标签)或 prompt(提示词)

    正面提示词:相比 Midjourney 需要写得更精准和细致,描述少就给 AI 更多自由发挥空间。

    负面提示词:不想让 SD 生成的内容。

    正向:masterpiece, best quality, 更多画质词,画面描述

    反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根据画面产出加不想出现的画面。

    生成下面的 5 个小图标(从左到右依次分别是)

    复原上次生成图片的提示词(自动记录) 清空当前所有提示词 打开模型选择界面 应用选择的风格模板到当前的提示词 存档当前的正反向提示词

    2. 采样方法

    建议根据自己使用的 checkpoint 使用脚本跑网格图(用自己关心的参数)然后选择自己想要的结果。 懒得对比:请使用 DPM++ 2M 或 DPM++ 2M Karras(二次元图)或 UniPC,想要点惊喜和变化,Euler a、DPM++ SDE、DPM++ SDE Karras(写实图)、DPM2 a Karras(注意调整对应 eta 值) eta 和 sigma 都是多样性相关的,但是它们的多样性来自步数的变化,追求更大多样性的话应该关注 seed 的变化,这两项参数应该是在图片框架被选定后,再在此基础上做微调时使用的参数。 3. 采样步数

    稳定扩散通过从充满噪音的画布开始创建图像,并逐渐去噪以达到最终输出。此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是 25 个步骤。以下是不同情况下使用哪个步骤编号的一般指南:

    如果您正在测试新的提示,并希望获得快速结果来调整您的输入,请使用 10-15 个步骤 当您找到您喜欢的提示时,请将步骤增加到 25 如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到 40

    面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。

    平铺:生成一张可以平铺的图像

    高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中该选项会有一系列新的参数,

    其中重要的是:

    放大算法:Latent 在许多情况下效果不错,但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 对 0.5 以下的重绘幅度有较好支持。

    放大倍数: 通常 2 倍即可

    重绘幅度:决定算法对图像内容的保留程度。该值越高,放大后图像就比放大前图像差别越大。低 denoising 意味着修正原图,高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些,0 什么都不会改变,1 会得到一个完全不同的图像。具体的执行步骤为 重绘强度 * 重绘步数。

    长宽尺寸(分辨率)

    长宽尺寸并非数值越大越好,最佳的范围应在 512 至 768 像素之间,比如正方形图多是 512*512 和 768*768,人像肖像 512x768,风景画 768×512,可按比例加大或减小,这个值必须是 8 的倍数。如果不希望主题对象出现重复,应在此范围内选择适当的尺寸。如果需要更高分辨率的图片,建议先使用 SD 模型生成图片,然后再使用合适的模型进行 upscale。

    生成批次:每次生成图像的组数。一次运行生成图像的数量为生成批次 * 每批数量。

    每批数量:同时生成多少个图像。增加这个值可以提高性能,但你也需要更多的 VRAM。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1。

    提示词相关性 CFG:较高的数值将提高生成结果与提示的匹配度。 OpenArt 上使用的默认 CFG 是 7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于 5。

    CFG 量表可以分为不同的范围,每个范围都适合不同的提示类型和目标

    CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用 CFG 710:推荐用于大多数提示。创造力和引导一代之间的良好平衡 CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时 CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量 CFG >20:几乎无法使用 随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。

    3. 提示词生成

    开始不知道怎么写提示词,可以先参考优秀的风格模板作为起手式,还可以借助描述语工具和网站,多出图多研究,掌握了出图规律,慢慢就可以自己写提示词啦,写提示词要尽可能写的详细。跑 AI 的过程就像抽卡,抽出一堆卡,选出你审美范畴里觉得好看的。

    找 tag 关键词网站:

    可参考 Civitai | Stable Diffusion models, embeddings, hypernetworks and more 中优秀作品的提示词作为模板。

    其他网站还有:

    ChatGPT: https://chat.openai.com/ AI Creator: https://ai-creator.net/arts NovelAI: https://spell.novelai.dev 魔咒百科词典: https://aitag.top AI 咒术生成器: https://tag.redsex.cc/ AI 词汇加速器 AcceleratorI Prompt: 词图 PromptTool: https://www.prompttool.com/NovelAI 鳖哲法典: http://tomxlysplay.com.cn/#/ Danbooru tag:Tag Groups Wiki | Danbooru (donmai.us) 4. Prompt 格式优化

    第一段:画质 tag,画风 tag

    第二段:画面主体,主体强调,主体细节概括(主体可以是人、事、物、景)画面核心内容

    第三段:画面场景细节,或人物细节,embedding tag。画面细节内容

    第二段一般提供人数,人物主要特征,主要动作(一般置于人物之前),物体主要特征,主景或景色框架等

    举个例子:(具体场景还是要灵活应用,多尝试,找到合适自己的节奏和风格)

    第一段:masterpiece, best quality, 4k, ( Pixar - style :1.4)

    第二段:1boy,(Cute,handsome,wearing outdoor sportswear :0.7), 3D,(Face close-up :1.2), (at night, surrounded by glowing plants, flowers, flying fireflies, bonfires), (Ultra detailed, aesthetic, beautiful composition, rich bright colors, volumetric soft light).

    第三段:Inspired by Alice in Wonderland, magic, fairy tales. unreal Engine, octane render, cuteness render, awe inspiring, beautiful,

    5. Prompt 规则细节

    ①越靠前的 Tag 权重越大。

    ②生成图片的大小会影响 Prompt 的效果,图片越大需要的 Prompt 越多,不然 Prompt 会相互污染。

    ③Stable-diffusion 中,可以使用括号人工修改提示词的权重,方法如下:

    (word) - 将权重提高 1.1 倍 ((word)) - 将权重提高 1.21 倍(= 1.1 * 1.1) [word] - 将权重降低至原先的 90.91% (word:1.5) - 将权重提高 1.5 倍 (word:0.25) - 将权重减少为原先的 25%

    请注意,权重值最好不要超过 1.5

    ④Prompt 支持使用 emoji,可通过添加 emoji 达到表现效果。如?形容表情,?可修手。

    ⑤“+” , “ AND” , “|” 用法:“+”和“ AND ”都是用于连接短 Tag,但 AND 两端要加空格。"+"约等于" and ";“|” 为循环绘制符号(融合符号)(Prompt A: w1)|(Prompt B: w2)

    以上表达适用于 WebUI,w1、w2 为权重。AI 会对 A、B 两 Prompt 进行循环绘制。可往后无限加入 Prompt。

    ⑥tag 不一定是多么充满细节,只要模型稳定。小图+高分辨率重绘。800*400 的图变成 1600*800,初识小图减少崩坏概率。

    ⑦关键词最好具有特异性,譬如 Anime(动漫)一词就相对泛化,而 Jojo 一词就能清晰地指向 Jojo 动漫的画风。措辞越不抽象越好,尽可能避免留下解释空间的措辞。

    三、了解模型 1. 下载模型

    主流模型下载网站:

    Hugging face 是一个专注于构建、训练和部署先进开源机器学习模型的网站: https://huggingface.co/ Civitai 是一个专为 Stable Diffusion AI 艺术模型设计的网站,是非常好的 AI 模型库: https://civitai.com/ 主流模型被删除可以去备用模型站下载: https://www.4b3.com

    2. 模型选择

    如何选择合适模型是最重要的。

    从你想画的风格(写实、二次元、卡通盲盒等)来选择大模型,再搭配合适的 Lora。

    ①Checkpoint

    体积较大,也被称为大模型,不同的大模型使用不同的图片训练而成,对应不同的风格,相当于最底层的引擎。有时候需要大模型+VAE+emb+Lora 联合搭配使用以达到需要的效果。

    下载的大模型可放置于 SD 文件夹/models/Stable-diffusion 内。

    ②Lora

    Lora 是特征模型,体积较小,是基于某个确定的角色、确定的风格或者固定的动作训练而成的模型,可使用权重控制,确定性要远强于 embedding。embedding 和 Lora 有功能交集的部分,也有互相不可取代的地方。

    在 ckpt 大模型上附加使用,对人物、姿势、物体表现较好。在 webui 界面的 Additional Networks 下勾线 Enable 启用,然后在 Model 下选择模型,并可用 Weight 调整权重。权重越大,该 Lora 的影响也越大。不建议权重过大(超过 1.2),否则很容易出现扭曲的结果。

    多个 Lora 模型混合使用可以起到叠加效果,譬如一个控制面部的 Lora 配合一个控制画风的 Lora 就可以生成具有特定画风的特定人物。因此可以使用多个专注于不同方面优化的 Lora,分别调整权重,结合出自己想要实现的效果。

    LoHA 模型是一种 LORA 模型的改进。

    LoCon 模型也一种 LORA 模型的改进,泛化能力更强。

    下载的 Lora 可放置于 SD 文件夹/models/Lora 内。

    ③VAE

    VAE 模型类似滤镜,对画面进行调色与微调,一般需要搭配相应的模型一起使用。(如果图片比较灰,颜色不太靓丽,就可能是没加载 vae)

    下载的 VAE 可放置于 SD 文件夹/models/VAE 内。

    ④Textual inversion(embedding)

    关键词预设模型,即关键词打包,即等于预设好一篮子关键词 a,b,c 打包,进而来指代特定的对象/风格。也可以通过下载 Textual inversion 进行使用。

    下载的 embedding 可放置于 SD 文件夹/embeddings 内。

    四、ControlNet ControlNet 使得 SD 从玩具变成做商业项目的神器,接下来会重中之重来详细讲解一下。

    ControlNet 是斯坦福大学研究人员开发的 Stable Diffusion 的扩展,使创作者能够轻松地控制 AI 图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成。ControlNet 可以概括为一种简单的稳定扩散微调方法。ControlNet 的工作原理是将可训练的网络模块附加到稳定扩散模型的 U-Net (噪声预测器)的各个部分。Stable Diffusion 模型的权重是锁定的,在训练过程中它们是不变的。在训练期间仅修改附加模块。

    1. 安装

    从 github 上找到并把网址填到扩展里安装,安装完后记得点击 Apply and restart UI( https://github.com/Mikubill/sd-webui-controlnet )

    将 ControlNet 模型(.pt、.pth、.ckpt 或.safetensors)放入 models/ControlNet 文件夹。 打开“txt2img”或“img2img”选项卡,写下您的提示。 按“刷新模型”,选择要使用的模型。(若没有出现,请尝试重新加载/重新启动 webui) 上传您的图像并选择预处理器,完成。 目前,它支持完整型号和修剪型号。使用 extract_controlnet.py 从原始.pth 文件中提取 controlnet。

    预训练模型: https://huggingface.co/lllyasviel/ControlNet/tree/main/models

    2. 界面介绍

    开启 :选中此框以启用 ControlNet。

    颜色反转:交换黑色和白色。例如,它可以在您上传涂鸦时使用。ControlNet 需要黑色背景和白色涂鸦。如果您使用白色背景的外部软件创建涂鸦,则必须使用此选项。如果您使用 ControlNet 的界面创建涂鸦,则不需要使用此选项。

    RGB 转为 BGR :用于检测用户导入图像中的颜色信息。有时图像中的颜色信息可能与扩展所期望的不同。如果您上传图像并使用预处理,则无需选中此框。

    低显存:这将减缓 ETA 进程,但有助于使用更少的计算空间(显存小于 8 GB VRAM 建议使用),检查您是否用完了 GPU 内存,或者想要增加处理的图像数量。

    推测模式:ControlNet 自动识别图像(不需要提示和负面提示)与选定的预处理器。它强制 ControlNet 编码器遵循输入控制图(如深度、边缘等),即使没有提示也是如此。使用此模式时使用更高的步进,例如 50,但是这个效果不一定好。

    权重(Weight):代表使用 ControlNet 生成图片时被应用的权重占比。

    引导介入时机(Guidance Start):在理解此功能之前,我们应该先知道生成图片的 Sampling steps 采样步数功能,步数代表生成一张图片要刷新计算多少次,Guidance Start(T) 设置为 0 即代表开始时就介入,默认为 0,设置为 0.5 时即代表 ControlNet 从 50% 步数时开始介入计算。

    引导退出时机(Guidance End):和引导介入时机相对应,如设置为 1,则表示在 100%计算完时才会退出介入也就是不退出,默认为 1,可调节范围 0-1,如设置为 0.8 时即代表从 80% 步数时退出介入。

    调整大小模式提供了调整 ControlNet 大小和上传图像的纵横比。

    Just Resize:不保留纵横比的情况下,改变 ControlNet 图像的大小以匹配 Txt2Img 设置的宽度和高度。这包括拉伸或压缩图像以适应指定的尺寸。

    Scale to Fit (Inner Fit):调整 ControlNet 图像的大小以适应 Txt2Image 的尺寸。它将调整图像的大小,直到它能够适应 Txt2Image 设置的宽度和高度。

    Envelope (Outer Fit):调整 Txt2Image 的大小以适应 ControlNet 图像的尺寸。它将调整图像的大小,直到 Txt2Image 设置可以适合 ControlNet 图像。

    画布宽度 和 画布高度 提供手动创建绘图或草图以,不上传任何图像(最好使用 Scribble 预处理器以获得良好的输出)。它会调整空白画布的大小来进行绘制,不会影响上传的原始图像。

    预览图片处理结果:能够快速查看选择的预处理器是如何将上传的图像或绘图转换为 ControlNet 的检测图。对在渲染输出图像之前尝试各种预处理器有用,可节省我们的时间。

    隐藏处理结果:删除预览图像。

    预处理器和模型是 ControlNet 的主要选项。

    预处理器:用于对输入图像进行预处理,例如检测边缘、深度和法线贴图。None 使用输入图像作为控制图。 根据所需的输出,用户可以选择相应的控制方法。

    模型:如果您选择了预处理器,您通常会选择相应的模型。但是它并不限制你混合和匹配所有的预处理器和模型,但是混合多了就会产生负面效果,所以最好使用更加匹配的模型并且越少越好。ControlNet 模型与在 AUTOMATIC1111 GUI 顶部选择的稳定扩散模型一起使用。

    五、预处理器 下面我们介绍几个常用的 ControlNet,并在下面举例说明如何使用它。

    1. Canny 边缘检测

    Canny 通过使用边缘检测器创建高对比度区域的轮廓来检测输入图像。线条可以捕捉到非常详细的信息,但如果你的图像背景中有一些物体,它很可能会检测到不需要的物体。所以背景中物体越少效果越好。用于此预处理器的最佳模型是 control_sd15_canny。

    2. Depth & Depth Leres

    这个预处理器有助于生成输入图像的深度估计。深度通常用于控制图像内物体的空间定位。浅色区域意味着它离用户更近,而深色区域则离用户更远。

    在大图像时它可能会丢失图像内部的细节(面部表情等)。一般会与 control_sd15_depth 模型组合使用。Midas Resolution 函数用于增加或减少 detectmap 中的大小和细节级别。它的级别越高,将使用更多的 VRAM,但可以生成更高质量的图像,反之亦然。

    Depth Leres 有与 Depth 相同的基本概念,但在地图中包含更广泛的范围。但有时它会从图片中捕获了太多信息,可能会生成与原始图像略有不同的图像。所以最好先试用两种预处理器,然后决定哪一种。

    3. HED (Holistically-Nested Edge Detection)

    Hed 可以在物体周围创建清晰和精细的边界,输出类似于 Canny,但减少了噪声和更柔软的边缘。它的有效性在于能够捕捉复杂的细节和轮廓,同时保留细节特征(面部表情、头发、手指等)。Hed 预处理器可用于修改图像的风格和颜色。用于此预处理器的最佳模型是 control_sd15_hed。

    4. MLSD ( Mobile Line Segment Detection)

    MLSD Preprocessor 最适合生成强有力的线条,这些线条能够检测出需要独特和刚性轮廓的建筑和其他人造作品。但是它不适用于处理非刚性或弯曲的物体。MLSD 适用于生成室内布局或建筑结构,因为它可以突出直线和边缘。用于此预处理器的最佳模型是 control_sd15_mlsd。

    5. Normal map

    法线图使用了三种主要颜色(红、绿、蓝),通过不同的角度来精确定位物体的粗糙度和光滑程度。它生成法线图的基本估计,可以保留相当多的细节,但可能会产生意想不到的结果,因为法线图完全来自图像,而不是在 3D 建模软件中构建的。

    法线图有利于突出复杂的细节和轮廓,并且在定位对象方面也很有效,特别是在接近度和距离方面。“Normal Background Threshold”用于调整背景成分。设置一个更高的阈值可以移除背景的远处部分(将其混合成紫色)。降低阈值将命令 AI 保留甚至显示额外的背景元素。用于此预处理器的最佳模型是 control_sd15_normal。

    6. OpenPose

    这个预处理器生成了一个基本的骨骼火柴人形象。这种技术被广泛采用,因为多个 OpenPose 骨架可以组合成一个图像,这有助于引导稳定扩散生成多个一致的主题。骨架图有很多关节点,每个点代表如下图所示。

    7. Scribble

    涂鸦的目的是从简单的黑白线条画和草图生成图像。用户也可以使用“Canvas”选项创建特定大小的空白画布,用于手动素描(也可以直接上传图像)。如果草图和绘图由白色背景上的黑线组成,则需要选中“Invert Input Color”复选框。用于这个预处理器的最佳模型是 control_sd15_openpose。

    8. Segmentation

    分割预处理器检测并将上传的图像分割为同一图像内的段或区域。该模型在生成一组新的图像时,将 detectmap 图像应用于文本提示。用于此预处理器的最佳模型是 control_sd15_seg。

    附录:预处理器与对应模型清单

    总结 使用 AI 绘图工具 Stable Diffusion 确实能提高美术工作者的生产效率,但是请记住:人工智能,没有人工就没有智能。Stable Diffusion 并不是简单易上手的 APP,我们需要花费一定的时间和精力去学习和不断调试,才能使其真正为我们所用,高效产出效果符合需求的图片。

    最后,我为大家简单罗列一下使用 SD 的几项核心能力:

    Github 使用能力,使用者在熟练掌握 Github 开源项目的安装、调参、排错、编程环境设置等技能后,就不会在 SD 报错时六神无主了。 基础出图调试能力,这项能力能够让使用者无需协助就能自行摸索稳定输出可用的图片。 Controlnet 构图能力,基于 Controlnet 的构图控制是美术从业者驾驭 SD 的缰绳,不会用 Controlnet,你只会被随机噪声牵着走。 学习插件并组合使用的能力。 Lora 等小模型的训练能力(进阶)。 如本文对您有帮助,欢迎将其分享给需要的朋友~关注我,接下来会分享更多关于 Stable Diffusion 的进阶内容和商业落地项目。

    站在巨人的肩膀上

    https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis https://muhou.net/document/236688.html https://guide.novelai.dev/guide/prompt-engineering/practice https://zhuanlan.zhihu.com/p/619721909 https://zhuanlan.zhihu.com/p/612572004 https://www.163.com/dy/article/I22IV66G0518R7MO.html https://stable-diffusion-art.com/controlnet/ 欢迎关注作者的微信公众号:生誮果Design


让你的品牌快速脱颖而出,抢占市场份额,提升销量
免费获取方案及报价
*我们会尽快和您联系,请保持手机畅通