• AI绘画是如何发展至今的?浅聊AI绘画发展史

    UI交互 2023-04-16
    关于 AI 绘画,过去已经谈过一次。相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。

    关于 AI 绘画,过去已经谈过一次。

    相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。当然,还有无数好事者的呐喊助威,各怀心思。Ai 绘画目前更像一个人工智能玩具、素材制作、灵感参考、绘画新工具的存在。我们要敬畏它,学习它,运用它,但不要过分焦虑。

    这里头有两个重要问题有待解决,其一是版权。如果 AI 生成图像跟成名艺术家过于相像,容易形成抄袭一类维权纠纷。这里头容易埋坑,就是一但立法跟上,可能会对过去应用进行责任追讨,律师事务所自然喜闻乐见,摩拳擦掌。其二是如果不用以图生图方式,其实主流的两大 AI 工具 MidJourney 与 Stable Diffusion 都有较明显的风格化问题,容易一眼看穿出身,形成我们设计圈常说的素材感很强,模板感很强的感受。比如我看目前朋友圈的大量分享确实一眼就知道 AI 出品,有时候两眼。

    看多了,新鲜感就会消退,而且就实际商业应用而言,受不受欢迎不好说。免费做应该还行,甲方如果付费了应该并不希望你用 AI 弄一套东西给他。

    但 AI 进步实在太快,以上说法也许很快不能作数,因此文章有效期 7 天。今天的话题并非要进一步评价 AI 绘画,而是跟大家讲述它的发展史。从历史角度,还原一下妖怪的诞生。

    AI绘画 教程:

    超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。

    阅读文章 >

    超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J

    阅读文章 >

    故事,要从 70 年代说起。

    一、伪人工智能 这段历史,几乎每个人都会从一位英国艺术家说起,此人名为科恩(Harold Cohen)。

    生于 1928 年的科恩在 2016 年去世,一生致力于研究如何采用计算机程序创作艺术。

    科恩早年就学艺术,随后再学编程,文理兼修,打通任督二脉,也就是艺术与科技的屏障。

    因此,1972 年在他手上诞生了“亚伦”(AARON)程序。

    这个程序被视为 AI 绘画始祖,个人认为相对牵强。

    当然我所谓的牵强要看怎么定义“AI 绘画”,就目前 AI 绘画的形态来看,“亚伦”更像打印机。

    因为“亚伦”创作的真的是画,画在纸上那种(或者画布)。由于“亚伦”至今不开源,而且科恩已经去世,其作画原理细节目前是个迷。

    但按理解,就是通过编写好的程序指导机械化操作,跟如今工厂的机械臂差不多。

    Mac 电脑首次集成可以处理图像及文字的软件,绘画由此真正进入可视化的电脑时代。世界上第一款图文设计软件也由苹果公司开发,随着 Mac 电脑一起发布,名为“MacPAInt”,(“麦克油漆”)。当年的产品发布会上乔布斯还为大家现场展示过这款软件绘制的浮世绘图像,创作者是美国女平面设计师苏珊·卡雷(Susan Kare)

    这其实也可属于 AI 绘画历史的一部分,就是生产工具的升级。当时而言,对绘画界的震慑威力也不小,大家也很恐慌,很焦虑。传统画家都说糟糕了,老子要失业。再然后,默默学习,默默适应,默默发展,默默变成自然。

    历史就是这么有趣。

    二、闷声干大事 Mac 之后,科技分别在计算机+互联网领域奔跑。那时候,我们对科技进步感知其实还不够明显。

    但从乔布斯 2007 年推出 iPhone 手机后大家就明显感觉科技发展“提速”了,此后惊喜不断,高潮迭起,一环扣一环,大家应接不暇。其中,就有不少人在默默耕耘人工智能。

    于是乎,重要的拐点发生在 2012 年。

    这一年谷歌两位 AI 大神带领团队做了个试验,耗资 100 万美元,1000 台电脑,16000 个 CPU,用时 3 天,基于 Youtube 平台 1000 万个猫脸图片,用深度学习模型程序生成了一个模糊的猫脸。两位大神分别是华裔人工智能科学家吴恩达跟美国计算机科学家杰夫·迪恩(Jeff Dean)。试验中生成的猫脸像被揍过一样,如果不说明,一眼还不容易看出来,但它的诞生注定要写进历史。

    因为这其实才是 AI 绘画真正意义上的起点。

    这里要用通俗的概念科普下,什么是“深度学习模型”。简单说来就是需要向这个“模型”大量“投喂”外部标注好的训练数据,然后让它根据输入的预期效果进行反复调整与匹配进行输出。这样说吧,蒸汽机刚发明的时候,按燃料热值产出效率才 3%,“深度学习模型”的产生效率可能只有它的百万分之一,所以超贵。

    但不管如何,猫脸的诞生让大家备受鼓励,各路人工智能领域大神开始一路狂飙,闷声干大事。很快时间就去到 2014 年,加拿大蒙特利尔大学有个爷们提出了“生成对抗网络”算法进行 AI 绘画,简称“GAN”。

    GAN 的原理是它拥有两个深度神经网络模型,一个叫生成器(Generator)一个叫判别器(Discriminator)。

    为了方便理解,可以做个比喻,生成器就像乙方,负责做图,判别器就像甲方,负责说不行。每次乙方做完一张图出来甲方就说不行,要改,乙方改完出来甲方还说不行,继续改。如此循环上万次(很短时间内发生),直到双方筋疲力尽,甲方决定妥协,乙方也准备不要尾款算了,然后就输出一个最终结果。坦白说,GAN 的输出效果已经让人惊艳,一度成为 AI 绘画的主流方向。但缺点是非常费硬件(显卡),出图过程经常直接黑屏,而且它对局部图像的理解能力差,很难局部修改,图片分辨率也较低。

    到了 2015 年,谷歌推出过一个叫“深梦”(Deep Dream)的图像生成工具,这些画作全部都像有一堆疙瘩,生成痕迹明显。但也打出 AI 绘画旗号,而且还专门办了个展,其实比较出戏,这里不多聊。

    同在这一年,一种重要的人工智能技术也诞生,就是“智能图像识别”。

    意思是计算机可以运用语言去描述一张图片,就像父母拿着卡片问 2 岁宝宝这啥,宝宝会答:大象。

    这个技术当然更先进些,比如你给一张高启强的图片它识别,它会给出一系列标签,比如:男性、黄种人、中年、老大之类。

    这跟 AI 绘画有什么关系呢?

    就是有研究人员开始根据技术反过来想,如果给它文字标签描述,是否也可以生成图片呢?结果模型真的能根据文字生成一堆小图片,如此一来,这个逻辑成为 AI 绘画的新研究方向。

    三、潘多拉魔盒 2015 年之后其实还有很多这方面不同的尝试与研究,但普遍属于上述技术的不同优化。

    真正让 AI 迎来质的飞跃是在 2021 年,网红人工智能公司 OpenAI 推出了 AI 绘画产品 DALL· E。

    这个版本的出图水平还很一般,但已经完全是根据文字提示来进行作画了。

    2022 年,DALL·E-2 版本推出,水平大幅提升,AI 绘画就是这个阶段开始获得广泛关注的。而且更关键的是 OpenAI 公司开源了 DALL· E 的深度学习模型 CLIP(Contrastive Language-Image Pre-TrAIning)。

    CLIP 模型训练 AI 同时做两件事情,其一是理解自然语言,其二是视觉分析,然后通过不停训练来优化两者对应程度,比如将马桶跟马桶图像完全对应上,如果马桶对了茅坑就得再来,最后形成“咒语绘画”这样的局面。

    问题来了,过去的 AI 绘画模型其实也有干这件事情,为什么 CLIP 如此优秀?明显,就是 CLIP 做训练的量远远超过过去任何模型,据说大致是 40 亿个以上的“文本-图像”数据,而且跟过去其它模型不同的是这些数据是免费的,并非人力成本天价的标注图像,因为鸡贼的 CLIP 采用的居然是广泛散布在互联网上的各种图片,这些互联网图片一般都带有各种文本描述,比如标题、注释,甚至标签等等,这些天然资源就是最佳的训练样本,果然是思路一变,市场一片,随后就很快出现不少超级厉害的应用工具。

    比如 2022 年 2 月,SomnAI 等几个开源社区做了一款 AI 绘图生成器——Disco diffusion,2022 年 3 月份,由 Disco diffusion 的核心人员参与建设的 AI 生成器 Midjouney 也正式发布,Disco diffusion 跟 Midjouney 问世后都在不停进步。

    2022 年 8 月时候,美国游戏设计师杰森(Jason Allen) 就凭借一幅 AI 绘画作品《太空歌剧院》(Théâtre D'opéra Spatial),斩获美国科罗拉多州博览会美术竞赛一等奖。

    当杰森公布这是一张由 Midjouney 创作的 AI 绘画作品时,引发了大部分参赛者的愤怒,也引发新一轮针对人工智能技术的讨论。再随后就到了 2023 年,相关发生的事情大家历历在目,此处不必重复。

    四、未来的展望 AI 从绘画进一步拓展到不同领域可以说是必然发生的了。

    但关于展望,我感觉应该尽量积极点,就是 AI 技术将被多国联合驯化,结合到经济发展中产业化,创造出更多岗位,如同 15 年前不敢想象人居然可以全职就对着手机说话,并且优秀的还赚不少钱。

    直播与短视频产业带动了很多故事策划、文案创作、视频拍摄、特效制作、服装道具、音视频硬件、场地租赁等等商业需求,也盘活了过去很多传统行业。

    这些事情是抖音 1.0 无法想象的,他们也许最初只想做一款成功的娱乐应用,而 AI 最初也只是想尽量干出人类能干的事情,更关键的是,AI 只能知道过去人类想过什么,永远不知道人类接下来会想什么。

    欢迎关注作者的微信公众号「 设计史 太浓」:

  • AI绘画是如何发展至今的?浅聊AI绘画发展史

    UI交互 2023-04-16
    关于 AI 绘画,过去已经谈过一次。相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。

    关于 AI 绘画,过去已经谈过一次。

    相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。当然,还有无数好事者的呐喊助威,各怀心思。Ai 绘画目前更像一个人工智能玩具、素材制作、灵感参考、绘画新工具的存在。我们要敬畏它,学习它,运用它,但不要过分焦虑。

    这里头有两个重要问题有待解决,其一是版权。如果 AI 生成图像跟成名艺术家过于相像,容易形成抄袭一类维权纠纷。这里头容易埋坑,就是一但立法跟上,可能会对过去应用进行责任追讨,律师事务所自然喜闻乐见,摩拳擦掌。其二是如果不用以图生图方式,其实主流的两大 AI 工具 MidJourney 与 Stable Diffusion 都有较明显的风格化问题,容易一眼看穿出身,形成我们设计圈常说的素材感很强,模板感很强的感受。比如我看目前朋友圈的大量分享确实一眼就知道 AI 出品,有时候两眼。

    看多了,新鲜感就会消退,而且就实际商业应用而言,受不受欢迎不好说。免费做应该还行,甲方如果付费了应该并不希望你用 AI 弄一套东西给他。

    但 AI 进步实在太快,以上说法也许很快不能作数,因此文章有效期 7 天。今天的话题并非要进一步评价 AI 绘画,而是跟大家讲述它的发展史。从历史角度,还原一下妖怪的诞生。

    AI绘画 教程:

    超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。

    阅读文章 >

    超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J

    阅读文章 >

    故事,要从 70 年代说起。

    一、伪人工智能 这段历史,几乎每个人都会从一位英国艺术家说起,此人名为科恩(Harold Cohen)。

    生于 1928 年的科恩在 2016 年去世,一生致力于研究如何采用计算机程序创作艺术。

    科恩早年就学艺术,随后再学编程,文理兼修,打通任督二脉,也就是艺术与科技的屏障。

    因此,1972 年在他手上诞生了“亚伦”(AARON)程序。

    这个程序被视为 AI 绘画始祖,个人认为相对牵强。

    当然我所谓的牵强要看怎么定义“AI 绘画”,就目前 AI 绘画的形态来看,“亚伦”更像打印机。

    因为“亚伦”创作的真的是画,画在纸上那种(或者画布)。由于“亚伦”至今不开源,而且科恩已经去世,其作画原理细节目前是个迷。

    但按理解,就是通过编写好的程序指导机械化操作,跟如今工厂的机械臂差不多。

    Mac 电脑首次集成可以处理图像及文字的软件,绘画由此真正进入可视化的电脑时代。世界上第一款图文设计软件也由苹果公司开发,随着 Mac 电脑一起发布,名为“MacPAInt”,(“麦克油漆”)。当年的产品发布会上乔布斯还为大家现场展示过这款软件绘制的浮世绘图像,创作者是美国女平面设计师苏珊·卡雷(Susan Kare)

    这其实也可属于 AI 绘画历史的一部分,就是生产工具的升级。当时而言,对绘画界的震慑威力也不小,大家也很恐慌,很焦虑。传统画家都说糟糕了,老子要失业。再然后,默默学习,默默适应,默默发展,默默变成自然。

    历史就是这么有趣。

    二、闷声干大事 Mac 之后,科技分别在计算机+互联网领域奔跑。那时候,我们对科技进步感知其实还不够明显。

    但从乔布斯 2007 年推出 iPhone 手机后大家就明显感觉科技发展“提速”了,此后惊喜不断,高潮迭起,一环扣一环,大家应接不暇。其中,就有不少人在默默耕耘人工智能。

    于是乎,重要的拐点发生在 2012 年。

    这一年谷歌两位 AI 大神带领团队做了个试验,耗资 100 万美元,1000 台电脑,16000 个 CPU,用时 3 天,基于 Youtube 平台 1000 万个猫脸图片,用深度学习模型程序生成了一个模糊的猫脸。两位大神分别是华裔人工智能科学家吴恩达跟美国计算机科学家杰夫·迪恩(Jeff Dean)。试验中生成的猫脸像被揍过一样,如果不说明,一眼还不容易看出来,但它的诞生注定要写进历史。

    因为这其实才是 AI 绘画真正意义上的起点。

    这里要用通俗的概念科普下,什么是“深度学习模型”。简单说来就是需要向这个“模型”大量“投喂”外部标注好的训练数据,然后让它根据输入的预期效果进行反复调整与匹配进行输出。这样说吧,蒸汽机刚发明的时候,按燃料热值产出效率才 3%,“深度学习模型”的产生效率可能只有它的百万分之一,所以超贵。

    但不管如何,猫脸的诞生让大家备受鼓励,各路人工智能领域大神开始一路狂飙,闷声干大事。很快时间就去到 2014 年,加拿大蒙特利尔大学有个爷们提出了“生成对抗网络”算法进行 AI 绘画,简称“GAN”。

    GAN 的原理是它拥有两个深度神经网络模型,一个叫生成器(Generator)一个叫判别器(Discriminator)。

    为了方便理解,可以做个比喻,生成器就像乙方,负责做图,判别器就像甲方,负责说不行。每次乙方做完一张图出来甲方就说不行,要改,乙方改完出来甲方还说不行,继续改。如此循环上万次(很短时间内发生),直到双方筋疲力尽,甲方决定妥协,乙方也准备不要尾款算了,然后就输出一个最终结果。坦白说,GAN 的输出效果已经让人惊艳,一度成为 AI 绘画的主流方向。但缺点是非常费硬件(显卡),出图过程经常直接黑屏,而且它对局部图像的理解能力差,很难局部修改,图片分辨率也较低。

    到了 2015 年,谷歌推出过一个叫“深梦”(Deep Dream)的图像生成工具,这些画作全部都像有一堆疙瘩,生成痕迹明显。但也打出 AI 绘画旗号,而且还专门办了个展,其实比较出戏,这里不多聊。

    同在这一年,一种重要的人工智能技术也诞生,就是“智能图像识别”。

    意思是计算机可以运用语言去描述一张图片,就像父母拿着卡片问 2 岁宝宝这啥,宝宝会答:大象。

    这个技术当然更先进些,比如你给一张高启强的图片它识别,它会给出一系列标签,比如:男性、黄种人、中年、老大之类。

    这跟 AI 绘画有什么关系呢?

    就是有研究人员开始根据技术反过来想,如果给它文字标签描述,是否也可以生成图片呢?结果模型真的能根据文字生成一堆小图片,如此一来,这个逻辑成为 AI 绘画的新研究方向。

    三、潘多拉魔盒 2015 年之后其实还有很多这方面不同的尝试与研究,但普遍属于上述技术的不同优化。

    真正让 AI 迎来质的飞跃是在 2021 年,网红人工智能公司 OpenAI 推出了 AI 绘画产品 DALL· E。

    这个版本的出图水平还很一般,但已经完全是根据文字提示来进行作画了。

    2022 年,DALL·E-2 版本推出,水平大幅提升,AI 绘画就是这个阶段开始获得广泛关注的。而且更关键的是 OpenAI 公司开源了 DALL· E 的深度学习模型 CLIP(Contrastive Language-Image Pre-TrAIning)。

    CLIP 模型训练 AI 同时做两件事情,其一是理解自然语言,其二是视觉分析,然后通过不停训练来优化两者对应程度,比如将马桶跟马桶图像完全对应上,如果马桶对了茅坑就得再来,最后形成“咒语绘画”这样的局面。

    问题来了,过去的 AI 绘画模型其实也有干这件事情,为什么 CLIP 如此优秀?明显,就是 CLIP 做训练的量远远超过过去任何模型,据说大致是 40 亿个以上的“文本-图像”数据,而且跟过去其它模型不同的是这些数据是免费的,并非人力成本天价的标注图像,因为鸡贼的 CLIP 采用的居然是广泛散布在互联网上的各种图片,这些互联网图片一般都带有各种文本描述,比如标题、注释,甚至标签等等,这些天然资源就是最佳的训练样本,果然是思路一变,市场一片,随后就很快出现不少超级厉害的应用工具。

    比如 2022 年 2 月,SomnAI 等几个开源社区做了一款 AI 绘图生成器——Disco diffusion,2022 年 3 月份,由 Disco diffusion 的核心人员参与建设的 AI 生成器 Midjouney 也正式发布,Disco diffusion 跟 Midjouney 问世后都在不停进步。

    2022 年 8 月时候,美国游戏设计师杰森(Jason Allen) 就凭借一幅 AI 绘画作品《太空歌剧院》(Théâtre D'opéra Spatial),斩获美国科罗拉多州博览会美术竞赛一等奖。

    当杰森公布这是一张由 Midjouney 创作的 AI 绘画作品时,引发了大部分参赛者的愤怒,也引发新一轮针对人工智能技术的讨论。再随后就到了 2023 年,相关发生的事情大家历历在目,此处不必重复。

    四、未来的展望 AI 从绘画进一步拓展到不同领域可以说是必然发生的了。

    但关于展望,我感觉应该尽量积极点,就是 AI 技术将被多国联合驯化,结合到经济发展中产业化,创造出更多岗位,如同 15 年前不敢想象人居然可以全职就对着手机说话,并且优秀的还赚不少钱。

    直播与短视频产业带动了很多故事策划、文案创作、视频拍摄、特效制作、服装道具、音视频硬件、场地租赁等等商业需求,也盘活了过去很多传统行业。

    这些事情是抖音 1.0 无法想象的,他们也许最初只想做一款成功的娱乐应用,而 AI 最初也只是想尽量干出人类能干的事情,更关键的是,AI 只能知道过去人类想过什么,永远不知道人类接下来会想什么。

    欢迎关注作者的微信公众号「 设计史 太浓」:

  • 30岁的路口,这些90后选择离开大城市

    设计动态 2023-04-16
    第一批90后今年33岁了。 从2012年踏入职场,第一批90后如今已在职场摸爬滚打十年。 十年之前,他们意气风发来到大城市,经历了最鼎盛而迅速的移动互联网爆发期,也经历了最严酷的996和毕业寒冬。十年之后,他们的雄心和梦想是否依旧澎湃?在而立的路口,选择告别意

    人的一生就是在不断做一连串的选择题,如今十年后的90后也到了人生的分岔路口,“是否离开大城市”成为了他们的必选题。今天这篇文章分享了一部分90后的故事,感兴趣的童鞋快来看看吧。

    第一批90后今年33岁了。

    从2012年踏入职场,第一批90后如今已在职场摸爬滚打十年。

    十年之前,他们意气风发来到大城市,经历了最鼎盛而迅速的移动互联网爆发期,也经历了最严酷的996和毕业寒冬。十年之后,他们的雄心和梦想是否依旧澎湃?在而立的路口,选择告别意味着什么?

    01 28岁情场失意,是时候该做选择了 北京的天一如既往阴霾,阿龙的心喜忧参半,即将告别奋斗了5年零3个月的北京,从西北旺到回龙观、从北五环到东三环,当年一路辗转一路憧憬,如今踏上返乡之旅,回想起在北京生活的日子,一切就像发生在昨天、恍然如梦。

    阿龙返乡的决心萌生在28岁。 “当时因为和女朋友分手,沟通的过程中也确实意识到了一些客观存在的问题,买房和落户就是最大的两个压力。而且我的第一学历是大专,在向上的职业发展道路上,并不占优势。另外,28岁还面临被家里催婚的问题。 距离30岁只剩下2年时间,这些实实在在的问题,我既没有时间也很难再等到合适的机会来解决,所以突然觉得有必要认真考虑一下之后的职业和人生规划。”

    据阿龙分析, 虽然自己的收入比在老家要多得多,但对于“留在北京”的这个目标而言,仍然显得微不足道。 阿龙从事的是与信息流广告投放相关的工作,在他北漂的第三年,中国社交媒体进入快速爆发期,从互联网大厂旗下的移动应用,到快消领域的知名品牌,全都加入到网络流量的争夺中,而阿龙的个人收入也伴随着行业的集体繁荣水涨船高。据阿龙透露,在北京的薪资每月税前基本在2万5左右,一年税前收入30万,到手至少有20万。“但是大城市的消费水平也更高。所以刚开始的两年,赚了一些钱,但基本上也都花掉了。”

    所幸阿龙很快感受到了大城市的行业红利期,于是在老家早早买了房。而在萌生回老家发展的想法后,阿龙迅速开始了解老家当地的工作机会,并最终在老家当地找到了一个和之前的工作经历较为匹配的工作。 “和在北京的时候相比,老家的收入缩水了一半,一年到手只有10万左右 ,本地企业也基本不给员工缴纳五险一金,收入上的落差非常明显。”

    对于自己在老家职业生涯和生活状态, 阿龙认为收入水平虽然有了明显下降,但自己的生活质量却提高了。 “以前在北京的时候,每天都很忙,也基本没有生活。但是回到老家就会发现,每天的工作可能也不少,但至少不需要频繁加班。偶尔可以约朋友出来聚一聚,周末也可以好好地休息。而且在老家房子、车子都有了,只要不是特别奢侈的生活,一个月工资八九千也完全够用。”

    阿龙告诉惊蛰研究所,大龄求职的困难就在于基础的工作不想干,要求高的工作机会少。但是很多时候, 一个人的职场进阶,靠的是平台和行业赋予的机会,如果不意识到这一点,对自己的职业发展抱着过高的预期,多半都会陷入中年求职的困境。 “个人的成长要靠自己的努力,但是个人的职业发展上限,不能脱离现实的考量。绝大多数人最终都是要回归生活、回归家庭的。所以有时候,明确职业发展的方向很重要,但是结合客观现实,找到人生的方向更为重要。没有合适的发展机会,再怎么努力都不对。”

    如今阿龙回到山东老家已经快4年了,他说自己对大城市的经历没有更多的怀念,他对现在的生活很满意。

    02 奶奶生病,让我意识到家人需要陪伴 在小智下定决心回到贵州老家考公时,他已经在北京的一家互联网咨询公司工作超过7年。从最初带着对互联网行业的浓厚兴趣开启“北漂人生”,到如今选择回乡考公,小智没有任何不舍,有的只是对人生新阶段的清醒认知。

    回想起大学毕业时,小智仅仅是因为个人兴趣,选择了与印刷包装专业完全不相干的行业。而从实习记者到市场策划、活动策划等岗位的职业履历,让他收获了格外丰满的职业生涯。 但随着职业晋升的空间越来越有限,再加上 疫情暴发后, 经济环境以及互联网行业的变化, 让小智意识到自己不一定非得留在北京。于是在2021年,他萌生了结束北漂的想法。

    事实上,小智的身边并不缺少在大城市成功留下来的案例。但他认为,人的命运有多样性,在大城市打拼到35岁并不一定就能事业有成。 个人职场的向上渠道往往是有限的, 过去的光鲜亮丽不代表以后的路也能一帆风顺。 更何况,一线城市优秀的年轻人才也非常多,越往上走,竞争反而越激烈。

    最初,小智并没有想回老家贵州,而是打算去南方二线城市,为此他还专门了解了一下重庆、成都、南京、长沙、苏州等城市的就业环境。但是在2021年下半年,因为照顾生病的奶奶让小智意识到家人也需要自己的陪伴,最终他还是选择回到了贵州老家。“在大城市发展的这些年,我和家里的联系并不多,可能平时也只有过年的时候会回一趟家。但是这次因为奶奶生病,我才发现, 个人的发展其实和家庭分不开,我也开始想要多陪陪家人。”

    小智告诉惊蛰研究所,和大城市比,老家的优势非常明显:气候舒适,没有工作压力和经济压力。小智也从很多朋友的口中,了解到了老家的“理想”生活状态。“我从很多朋友身上看到,他们没有刻意追求收入,而是选择让自己更幸福的生活方式。我有个朋友爱喝酒、吃宵夜,正好本地的夜生活又很丰富, 他们夫妻两个人加在一起一个月收入还不到8000元,也不用还房贷,感觉他们比90%以上的人都过得好。”

    关于选择考公的决定,小智表示,它不过是每个人在离开大城市面对有限的职业选择时,可以无门槛尝试的一个选项而已。“回老家的职业路径不外乎创业、找工作和考公这三种选择。对于创业,我承认自己有惰性,而且也不能承受创业结果的不确定性。而本地的商业环境太差,导致工作机会很少,竞争也更激烈,而且很多企业连五险一金这样的基础保障都不能提供。三四千块钱的工作不少,但都是很基础的工作,能否放下身段成了找不找得到工作的关键。”

    在参加面试培训班时,小智观察到,考公的人里面有很多和自己一样年纪在30岁左右的人,他们中不仅有企业项目负责人,也有全职妈妈。 “虽然他们选择了考公,但是他们平日里也有在好好工作。对他们来说,考公反映的是他们对待生活的态度和标准。” 或许工作机会并不多,但他们并没有选择躺平,而是通过自己的努力,抓住有限的机会努力尝试改变自己的生活。

    小智表示,如果放在五年前,自己打死都不信自己会考公。“但是此一时彼一时,不同条件下的想法有局限性。 每个人生活都有难处,但不代表不幸福。”

    03 不想卷了,一人两猫去农村找回生活 用5年时间从初级设计师一路晋升为某互联网公司设计项目负责人后,时年29岁的Mona在去年3月,正式提交了离职申请。但她的下一站不是另一家大厂的设计师坑位,而是成为一名独立设计师。

    和许多在大城市工作多年的独居青年一样,Mona早已厌倦了大厂忙碌和内卷的工作氛围。但与绝大多数在经历了短暂喘息之后,又主动陷入另一个职场泥潭的职场新人不同, Mona决定用离开大城市、离开稳定工作的方式,重新找回生活。

    Mona告诉惊蛰研究所,因为身处互联网行业的原因,之前的工作她几乎每天都是早上10点上班,一直到晚上10点下班,加班更是家常便饭。另外,设计工作最怕的就是重复修改,而之前的工作状态经常会遇到全部设计方案推倒重来的情况。 “每天被内卷的工作填满,周而复始,感觉生活完全看不到希望。” 这种恶劣的生活状态,让Mona萌生了转型自由职业的想法。

    带着自己的两只猫回到老家后,Mona最直观的感受是“生活”回来了。 Mona的老家在江苏农村,这里没有大城市嘈杂的街道和早晚高峰拥挤的公共交通,有的只是清新的空气和自家鸟语花香的庭院。除了这些,Mona也感受到消费降级带来的生活质变。

    据Mona透露,在上海每个月除去房租和个人名下的房贷后,她一个人的生活成本就需要3000元,全部开销加在一起超过了10000元。但是回到老家以后,Mona和母亲两个人的生活成本只需要1000元。“这里的1000元包括日常生活的水电、吃喝等所有成本。而且老家还有地,如果自己种菜吃的话。一个人一个月的生活成本可能都不到500元。”

    虽然生活成本降低了,但Mona并未降低对生活质量的要求。 在回到老家后,Mona拿出了工作多年攒下来的积蓄,将家里的老宅翻修一新。一方面是为了改善老家的生活环境,另一方面也为了让成为独立设计师的自己,有一个好的工作环境。

    从去年辞职至今,Mona已经在老家生活了一年多。Mona向惊蛰研究所表示,很满意自己现在的生活状态, “哪怕是在我参与装修的时候被人家骗,我也觉得很开心,因为真的感受到生活是被自己掌握的。” 在Mona看来,离开大城市和互联网大厂,也并不意味着选择用“躺平”的态度来面对个人发展和生活。“如果是因为厌倦了内卷的工作氛围和职场焦虑选择躺平,什么也不做,恐怕也还是会焦虑。所以空闲的时候我也会有计划地提升自己,除了接受合作邀约外,目前也在尝试向插画设计转型。”

    事实上,选择回到老家的Mona不只是重新掌握了自己生活的主动权,回归家人身边,也让她开始有更多的时间和精力,可以用来关心母亲的生活状态。“大概半年前,我的妈妈意外遭遇车祸导致脊柱骨折,住院卧床了三个月。这次经历让我开始想要提前为母亲的养老问题做规划。”Mona说,尽管可能需要面对很多未知的挑战,但她喜欢这种自己掌控生活的感觉。

    回头看“是否离开大城市”这道选择题会发现,难以做决定的关键并不是出在年龄上,而是在面临有限的选项时,并非每个人都有做出选择的勇气。人的一生是一连串选择题的结果,有时是我们被命运选中,但更多的时候还是依靠我们自己的选择,来决定未来的人生方向。

    *为保护受访者隐私,以上均为化名

    作者:雨谷 来源公众号:惊蛰研究所(id:jingzheyanjiusuo),探索发现新经济

    本文由人人都是产品经理合作媒体 @惊蛰研究所 授权发布,未经许可,禁止转载。

    题图来自 Unsplash,基于CC0协议。

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

    {{{path> 收藏 已收藏 {{ postmeta.bookmark }} {{{path> 点赞 已赞 {{ postmeta.postlike }}

  • 大模型混战,谁将成就AI时代的“新地基”?

    设计动态 2023-04-15
    自2022年stable diffusion模型的进步推动AIGC的快速发展后,年底,ChatGPT以“破圈者”的姿态,快速“吸粉”亿万,在全球范围内掀起了一股AI浪潮,也促使了众多海外巨头竞相发布属于自己的大模型。 而在国内,实际上很久之前,阿里、华为、腾讯

    随着ChatGPT的破圈,掀起了一场AIGC浪潮,国内外纷纷开始布局,发布自己的大模型。那么,在这匆匆发布的背后,是真的技术成熟,还是鱼龙混杂?各个大模型的实力又是怎样?本文将从语言大模型、算力与技术底座与具体应用层面状况三大角度,分析各大模型。

    自2022年stable diffusion模型的进步推动AIGC的快速发展后,年底,ChatGPT以“破圈者”的姿态,快速“吸粉”亿万,在全球范围内掀起了一股AI浪潮,也促使了众多海外巨头竞相发布属于自己的大模型。

    而在国内,实际上很久之前,阿里、华为、腾讯等公司便早已有所布局:2019年,阿里开始布局大模型研发,去年9月发布“通义”大模型系列的众多大模型;华为在2021年基于昇腾AI与鹏城实验室联合发布了鹏程盘古大模型;而腾讯的思路也与阿里相似,发布了混元AI大模型;第二梯队的京东、网易、360、字节跳动等企业,也纷纷官宣了自己在AI大模型方面的布局。

    而进入2023年以来,随着文心一言的发布,成为了中国第一个类ChatGPT产品后,各家的大模型也纷纷亮相,一时间,国内仿佛陷入了“大模型之战”中。

    截至目前,百度文心大模型、华为盘古大模型、商汤大模型、阿里大模型都已亮相,而后还有许多大模型正在准备粉墨登场。

    那么,在这匆匆发布的背后,是真的技术成熟,还是鱼龙混杂?各个大模型的实力又是怎样?

    本文将从语言大模型、算力与技术底座与具体应用层面状况三大角度,来分析和研究目前已经发布的大模型的技术基础、应用场景和用户生态,看看哪些大模型更有可能在这混战中成功突围。

    一、ChatGPT不该止于C端 ChatGPT,作为最早出圈的大模型产品应用,其问答的流畅程度与准确程度,可以很好地体现NLP模型的水平。 而目前,国内厂商百度、阿里也都发布了类似模型,那么,相比之下,文心一言与通义千问的表现如何?

    首先是最近对话式AI们经常出现的一个典型问题,面对自己知识库中没有,或本身就是错误的提问时,仍能对着错误描述侃侃而谈,简称一本正经的胡说八道。

    于是,我先问了通义千问这样一个问题:你知道唐僧为什么要上梁山吗?

    通义千问在思考后,给出了这样的回答:它首先简单对唐僧进行了介绍,然后将其带入了《水浒传》中宋江的角色,但最后却又回到了《西游记》中,还讲“这一情节体现了唐僧的坚定和决心,也反映了他作为一个有信仰的人物的形象。”

    而同样的问题给了文心一言,却得到了一个更加简短但同样荒谬的答案:唐僧上梁山的原因是因为他被迫出走,被唐朝通缉,无路可走,只能上梁山。

    本次测试中,通义千问与文心一言都犯了同样的错误,不过,在我指正之后,通义千问也进行了积极地认错,展现出了良好的连续问答能力,而文心一言则并没有“听懂”我的指正。接下来,我又问了它们一个经典的数学问题——鸡兔同笼,“鸡兔同笼,头共10,足共28,鸡兔各几只?”

    通义千问在得到提问后,快速做出了回答,为我列出了计算该问题所需要的方程式,还贴心地在后面备注上了方程式的由来。

    而文心一言就显得更加直接,回答了我的问题。

    而在这两个问题之外,我还让它们两个一起编写了代码、赏析了诗词、撰写了文章。 总的来说,在面对用户提出的问题时,通义千问与文心一言在绝大多数情况都可以给出较为正确的回答,在面对C端用户的提问时,两个产品显示出了不相上下的实力。

    而在C端的势均力敌之下,阿里却祭出了同类竞品难以比拟的B端服务能力。

    通义千问在C端用户之外,专门针对企业用户发出了邀请共测,企业可基于通义千问打造专属大模型,在企业专属的大模型空间中,既可以调动通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型。

    具体而言,除了通用场景之外,企业由于业务特性的不同,对于大模型服务有特殊需求和要求,希望让通用的大模型变成企业专属的大模型,支撑企业各式各样的应用与服务。

    阿里云希望通过产品化的方式,满足企业专属大模型从生成到部署全生命周期的需求。

    在发布会当天,阿里云就宣布将与OPPO安第斯智能云联合打造OPPO大模型基础设施,基于通义千问完成大模型的持续学习、精调及前端提示工程,未来建设服务于其海量终端用户的AI服务。同时,中兴通讯、吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌阅科技等多家企业也表示,将与阿里云在大模型相关场景展开技术合作的探索和共创。

    或许,在竞争激烈的C端之外,面向企业端的大模型构建能力,才是通义千问真正的优势所在。

    而相关专家也在交流中表示,通义千问将会在企业各自深耕的领域中为他们提供构建大模型方面的帮助,带来更好的生态系统与商业模式。

    二、大模型背后的算力之争,谁占先机? 纵观国内发布的大模型,可以发现,相对于国外尖端的AI企业来说,国内还像是蹒跚学步的孩童,在这条道路上刚刚起步。 而在大模型发展的道路上,最重要的实际上还是最基础的算力资源的多少与怎样利用算力的能力,那么国内顶尖大模型企业在算力上的储备几何?

    首先是近日同样发布了大模型的商汤科技,在前段时间的交流中,商汤科技内部的相关专家对公司的算力情况进行了交流。

    国内能拿到最尖端的显卡是来自英伟达的A100 GPU,商汤科技在美国对华禁售之前,便提前囤积了上万张A100芯片,是国内算力资源比较充足的厂商。

    除了来自英伟达的显卡之外,商汤还在采购国内的GPU,并且专家表示,早在去年以前,就已经在大装置中适配了许多寒武纪与海光信息的GPU卡,但在当下商汤仍旧面临着如何将国产GPU卡进行大模型训练适配的问题。

    在商汤之外,华为的盘古大模型也引起了众人瞩目,但在算力资源方面,华为却略显窘迫。

    因为受到美国的长期制裁,华为只得使用全部国产的加速芯片,而目前昇腾系列最先进大幅使用的型号昇腾910,也只有A100 70%的性能,从长期来看,将会制约大模型的发展。

    而算力的短缺也直接影响了华为的发展策略,选择性地放弃了C端的发展,主攻B端工业大模型应用。

    而说起算力资源储备最多的企业,莫过于云时代中独占鳌头的阿里。

    但从阿里云上的角度来看,当前云上至少拥有上万片的A100 GPU,从整体来说,阿里云的算力资源至少能够达到10万片以上。如果继续抬眼,从整个集团的算力资源来说,将会是阿里云5倍的这样的一个量级。

    而在英伟达的芯片之外,阿里云也拥有众多国产化的GPU芯片,而最近的项目中,便选择了寒武纪MLU370,其性能基本过关(A100的60-70%),检测合格,厂商态度积极,愿意与阿里对接,并且已经用在了CV等小模型的训练和推理上。

    在2023年,阿里云算力资源的增速也将达到30%-50%。

    得益于云时代的绝对领先,让阿里拥有了远超其他企业的算力资源,也让其在AI时代里天生就占得了上风。

    但是,动辄超千亿参数的大模型研发,并不能靠简单堆积GPU就能实现,这是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,需要AI-云计算的全栈技术能力。

    而阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一,也是为数不多拥有超万亿参数大模型研发经验的机构。

    在 AI算法 方面,阿里达摩院是国内最早启动大模型研究的机构之一,2019年便开始投入大模型研发,在中文大模型领域一直处于引领地位,2021年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型,此后还训练实现了全球首个10万亿参数AI模型。

    在 智能算力 方面,阿里建成了国内最大规模的智算中心“飞天智算平台”,千卡并行效率达90%,自研网络架构可对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。基于飞天智算的阿里云深度学习平台PAI,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,覆盖全链路AI开发工具与大数据服务,深度支持了通义大模型的研发。

    阿里云全栈AI技术体系 ,更是从机器学习平台、大模型即服务、产业智能三个层面,不断丰富AI服务,并通过全栈技术驱动千行百业的AI发展与应用。

    可以说,阿里在云时代的成功,在一定程度上延续到了AI时代,与那些算力资源相对不足的竞争者来说,阿里在算力与技术底座方面,有着无可比拟的巨大优势。

    三、大模型带来业务集合式飞跃 在拥有了算力资源与技术底座后,大模型能力若想要普惠大众,触达到每一个人,就需要应用层面的生态建设,而这,也正是众多厂商“刺刀见红”的战场,众多厂商也依据企业发展的不同,做出了不同的选择。 比如,华为盘古大模型,受算力资源不足与公司业务导向的影响,选择了指向B端的打法。

    在盘古大模型发布会上,华为没有着墨于NLP模型,而是着重强调了CV大模型与科学计算大模型的应用范例。

    盘古CV大模型主要应用于智能巡检、智慧物流等场景。

    例如,在与能源公司合作的盘古矿山大模型中案例中,矿井现场是一个40米长的采掘机,宽度仅2米左右,传统相机很难一下子捕捉到全部画面,只能用图中的九宫格视频画面。而通过5G+AI全景视频拼接综采画面卷,传输到地面,地面工作人员将来可以实现地面控制机器进行采矿,实现矿下无人少人安全作业。

    而盘古气象大模型,也在气象预测方向上超过了传统数值的计算方法。

    盘古气象大模型在气象预报的关键要素和常用时间范围上精度均超过当前最先进的预报方法,同时速度相比传统方法提升 1000 倍以上。如在台风路径预测任务上,相比传统数值气象预报方法,盘古气象大模型可以降低 20%以上的位置误差。

    而对阿里而言,其在国内领先的大模型能力与众多的业务板块,让阿里大模型在各个领域都能一展拳脚。

    阿里云智能集团CEO张勇在峰会上表示,阿里巴巴所有产品未来都将接入“通义千问”大模型,进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。

    以阿里起家的电商赛道来说,大模型就有许多应用场景。 对商家而言,大模型最切合实际的应用场景莫过于智能客服。随着电商行业逐渐成熟,消费者对服务质量的要求日益提高,客服这个岗位有着极为巨大的降本增效需求。

    而经过通义千问的改造后,能听懂消费者的话、明白消费者诉求的聪明客服机器人也将上线,将基于机器学习、大数据、自然语言处理、语义分析和理解等多项人工智能技术,为消费者提供最优质的服务。

    对于平台而言,大模型可以有效提升用户的购物体验。比如,用户可能有时不清楚自己的明确需求,但通过与AI导购员交流,可以得到相当多的指引信息以及购物清单,比如开一个生日party需要哪些方面的准备,化妆需要购买哪些工具等。

    在电商场景之外,接入通义千问后的办公场景,也将实现多项全新功能。

    例如在钉钉文档中,可借助通义千问自动配图、创作文章、撰写邮件、生成方案;在会议中,可以完成记录、总结、生产待办事项;甚至还能帮助总结未读群聊信息中的要点……

    可以说,无论是对B端的企业还是C端的用户,只要有阿里系产品存在的地方,在接入通义千问后,其智能水平与易用水平,都将快速提升一个档次。 而对阿里来说,作为国内最大的商业集团之一,有了通义千问的加持,得到的提升将不会仅仅局限于某个业务线或是某个方向,而将是整体实力的飞跃。

    写在最后 AI大模型的浪潮,开启了一个新的时代,将所有的互联网厂商都重新拉到了同一起跑线上。在2023阿里云峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇也说出,“面对AI时代,所有产品都值得用大模型重做一次。”

    而在一切应用重建后的AI时代里,核心竞争力究竟是什么?也成为了厂商们需要思考的首要问题。

    在我看来,坚实的算力基础与良好的用户生态,将成为AI时代里成功的两个必要条件。

    而国内,谁拥有最多高端算力资源与强大的算法进化能力,在这场大模型之战中,就有着其他企业无法比拟、得天独厚的优势。

    作者:自己做电商的小兵,编辑:钊

    来源公众号:奇偶派(ID:jioupai),讲述商业故事,厘清商业逻辑,探索商业模式

    本文由人人都是产品经理合作媒体 @奇偶派 授权发布,未经许可,禁止转载。

    题图来自Unsplash,基于CC0协议。

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

    {{{path> 收藏 已收藏 {{ postmeta.bookmark }} {{{path> 点赞 已赞 {{ postmeta.postlike }}

  • 电商TO B背后:谁在重构产业带?

    设计动态 2023-04-15
    有一座城,这里的百姓在40年前靠“鸡毛换糖”起家,他们聚集了全国各地的商品,再转卖出去。这样一来,就形成了销路,买东西的人想进货也不需要去各地选商品,为所有人提供了便利。 40年后,这里摇身一变,成了全球“摊主”。这就是汇聚了数十条产业带、238个产业园区的浙

    在互联网浪潮下,各大电商平台都在书写着各自不同的TO B故事。在这盘产业带大旗里,京东、淘宝、拼多多正在成为鲜活的新注解。本文对这三者的发展和策略展开分析,一起来看看吧。

    有一座城,这里的百姓在40年前靠“鸡毛换糖”起家,他们聚集了全国各地的商品,再转卖出去。这样一来,就形成了销路,买东西的人想进货也不需要去各地选商品,为所有人提供了便利。

    40年后,这里摇身一变,成了全球“摊主”。这就是汇聚了数十条产业带、238个产业园区的浙江省义乌市。现在,义乌不仅将商品销售到全国,甚至,还有很多世界商人从这里进货。

    然而,大疫三年,为义乌蒙上了一层阴影。他们要面临的,不仅是出口转内销的瓶颈,还有数字化转型难题。很多商家都把生意搬到线上,但在尝试新渠道时,却没有获得想象中的回报。一方面,线上经营有着与线下经营不同的规则和玩法;另一方面,商家很难兼顾线上和线下的生意。

    这不仅是义乌商家的难题,也是全国所有产业带上商家面临的困境。

    如今,这些产业带的困局正在被电商平台一一解开。

    一个关于拼多多的新数据是,在其百亿补贴系列活动中,拼多多携手助力产业带商家卖货,直播间商品价格最高下降300%,单场直播观看及拼单人次超过2000万。

    京东同样有所动作。比如为产业带商家提供免费办公场地、税收减免、和人才培育等电商专项政策扶持,面向产业带内针对缺乏运营能力的商家,京东提供专属店铺诊断和线上线下相结合的培训,助力产业带商家发展。

    根据不完全统计,在电商的大力扶持下,很多商家的线上渠道由5%变成了50~60%,在线下渠道依旧枝繁叶茂的如今,线上成为新的增量。

    面对互联网浪潮,在产业带商家面前,拼多多、京东和淘宝三大电商都在书写着各自不同的TO B故事。

    一、产业带上的增量密码 “今年市场上的蓝莓还是贵,不大敢敞开了吃。”一位消费者感叹道。口感酸、个头小、贵族浆果是蓝莓在消费者心中留下的长期印象。

    蓝莓之所以贵,一定程度上是因为其供不应求。毕业于华中农业大学的孙波做了个数据对比,“我国苹果约7000万亩,橘子约5000万亩,蓝莓种植面积全国只有六七十万亩,供应一二线的消费者都不够。”而它的酸要追溯到本土化种植问题。最初,中国种植的蓝莓还是美国1950年代的品种,在欧美消费者观念里,偏酸的蓝莓营养更好。

    后来,在中国科学界和商界的合力研究下,中国市场终于对蓝莓做了本土化改良,口感才逐渐变甜,个头变大。但规模化种植依旧面临重重阻挠,比如对气温、湿度、光照和水肥的控制问题,以及在运输过程中仓储保鲜问题。 这一系列问题需要的是现代化、智能化的产业链。

    正处于本土化突破期的云南蓝莓就面临了类似问题。对此,他们的解决方案是:种植过程中的培养情况随时可通过智能大屏监测,从栽培、管护到采摘、分级,再到预冷、质检、包装,冷链运输,又形成一条完整的产业链。 让蓝莓摆脱供不应求问题的同时,还更符合中国人的口味。

    在这背后,是拼多多正在把“贵族浆果”蓝莓变成“国民浆果”。

    拼多多的做法是分别从供给端和消费端,双管齐下解决问题。从供给侧来看,2月末的“农云行动”极大程度上推动了蓝莓“上云”。首先,在供应链方面,拼多多平台始终对生鲜农产品保持零佣金,激发潜在需求以扩大市场规模。从以往的线下销售和下乡收购,到如今的线上交易,拼多多 帮助商家实现运输链路和销售环节的数字化。

    其次,在商家运营方面,平台鼓励和培训农产带的年轻新农人上平台开店,完成“从0到1”的起步;而对于已经起步且具备良好供应链的商家,完成“从1到100”的跳跃。最后,在蓝莓种植方面,拼多多携手品牌商,实现产业链的智能化、现代化。

    从消费端角度,拼多多又开启“美好生活拼出来“系列直播,央视新闻“鲁冰花”帮助带货。有了官媒的背书,再加上官方补贴,18毫米规格的蓝莓,补贴后一斤价格为70多元。当日,佳沃JOYVIO旗舰店就卖出10万元。

    低价和重农是拼多多的故事。

    作为中国最大的零售体——京东,也有着自己独特的策略。京东的优势在于数字化赋能和京东物流的支持。一个最近的信息是,近日,京东超市首站落地福州,为商家从入驻、物流、金融、保险及技术五个核心方面给予支持,主要策略有四大举措:产品标准制定、电商化供应链建设、品牌打造及销售渠道拓展、开展线上线下营销活动。

    具体来讲,在商家入驻时,京东会免除前三个月的平台使用费,且全部返还开店前半年的扣点,还额外赠送广告金补贴和免费推广。入驻后,京东还会帮助商家进行品牌打造,并开展营销活动。依靠京东云数字化能力,商家可以通过数据分析确定目标人群画像,并在京东提供的多次培训中掌握精细化运营的技巧,最终实现业绩增长。

    在中国眼镜之都丹阳,疫情对眼镜产业带上的商家造成了不小冲击。线下客流少、供应链不通成为眼镜店的主要问题。2018年,一家眼镜店入驻京东,但由于用户画像和人群定位不清晰,导致销售额一度不理想。所以,团队依靠京东的数字化分析工具,研究店铺数据后,将客户群体定位在26~45岁的男性高级白领,产品定位则是商务光学眼镜垂直分类。

    此外,京东还为其提供了相关培训,团队优化了广告投放策略,对所投放的关键词、城市、时间等维度进行精细化调整。最终数据显示,调整后广告点击率增长了34%,单次点击费用下降了32%,月均销售额同比增长超过10倍。

    在拼多多、京东之外,淘宝同样有自己的产业表达。今年年初,淘宝针对当下部分地区产业带工厂库存积压、资金周转等难题发起产业带扶持计划,通过淘宝直播流量补贴、主播培养、小二一对一指导等,帮中小企业清库存。

    至于如何清空库存,直播也许是最佳手段。因此,淘宝直播投入了专属百亿流量,对产业带主播、机构等给予流量支持,单账号单月最高可获300万流量。

    不仅如此,在销售和直播方面,淘宝也有布局。首先,在销售方面,针对全国重点产业带优质源头好货,淘宝将打上“优质产业带”标签,提高权重,提升成交转化率;在直播方面,淘宝直播将在全国重点产业带培育10万个直播账号、20万新主播、1000个百万直播间。

    自营体系是京东的故事,淘宝则是直播赋能,低价和重农是拼多多的策略。三大电商都在发挥各自优势,竞相成为产业带上的增量密码。

    二、产业带按下“加速键” 疫情过后,电商平台们如基于自己的优势出现在一众产业带上,为其数字化进程按下了“加速键”。

    对于缺少数字化能力的商家,三年大疫带来的是颗粒无收的三年,这是大部分产业带的命运。在“中国眼镜之都”丹阳,受疫情影响,供应链流通不畅,导致原材料、快递成本上涨,最后店铺销售额和利润大幅下滑,结果就是众多眼镜店在疫情下停摆数月,不知怎么办才好。眼镜是一个暴力行业,“有认识人300就能拿下,没有认识人的价格却是2000”。也许,这就是为什么在如今的丹阳眼镜城,门口络绎不绝。

    这中间,京东是主要角色。“当时入驻京东时没想那么多,只听朋友说消费人群比较高端,所以就入驻了。没想到,现已成为我们的主力的站点,20年月均GMV同比增长了1000%+!” 丹阳眼镜店百世芬的店长发出感慨。

    为了扶持产业带,京东从多方面下手,提升商家GMV,包括流量激励、京东物流配送、运营指导、C2M反向定制。首先,京东通过线上流量的补给,以C2M反向定制的方式,找到最受消费者欢迎的款式,从而为线下门店带来精准客户。

    其次,在运营方面,对于缺少线上运营思路的商家,京东也会提供相关培训。以百世芬为例,2022年初,百世芬参加了时尚居家培训组举办的麒麟计划,通过培训后,他们对广告投放做了精细化的调整,店铺广告投放效率提升了1000%+,每日的投放费用增加了200%以上。

    最后,京东还推出了“工厂店”模式,帮助缺乏电商运营能力但却具备源头好货的产业带商家入驻京东,技术服务费最高全额返还、阶梯缴纳质保金等,作为上游供应链给其他商家供货,平台扣点低至0.5%。入驻后,京东会提供“成长套餐”,通过“游戏打怪”模式让店铺等级成长,为商家提供清晰的进阶成长路径。

    在这一切的背后,京东以独特的自营和自建物流的模式,在三大电商中脱颖而出,再加上商家入驻后提供的帮助运营和培训等服务,从而形成了一个完整的商业闭环。在该体系中,京东的自营模式赋予了商家天然的流量优势。

    相比之下,淘宝的产业带扶持计划则围绕直播流量补贴、主播培养和小二一对一指导,帮助商家引流、清空库存。

    “今年我们帮湖州产业带上百家童装厂清库存,预计卖掉50万件库存”,一家童装店主播“栗子”说道。栗子是淘宝为了帮助产业带商家清空库存开的直播新账号。像栗子这样的主播,在湖州、海宁等十个产业带不到1年的时间就开了6万多个。解决了商家们的库存问题,资金回笼问题也就迎刃而解了。

    除了直播赋能,淘宝的最大优势还是作为全渠道电商的“店小二”模式。以深圳水贝珠宝行业为例,在深圳,水贝的黄金商家们一直以来都是针对B端业务,但由于国内的B端客户都流向头部大商家,这些产业带上的“个体户”生意就越来越难做了,他们不得不转向C端。然而,面临突然的转型,习惯于B端销售模式的商家们并不知道如何把黄金直接卖给消费者。

    这时,淘宝的店小二就发挥了作用。对于黄金行业,“按克卖”比“按件卖”更适合产业带的商家们。因为,“按克卖”单价低,商家利润不高,而“按件卖”利润虽然高,但类似“周大生”这样的大品牌有底气卖出足够高的价格,所以,“按件卖”成为了黄金行业的默认销售模式。现在,随着供应链愈发透明,黄金的价格体系也逐渐被大众熟知,“按克卖”也就成为了线上线下的共识。所以就有了“金豆豆”这种产品。这是店小二根据年轻人的消费喜好,为产业带商家制定的独特销售方式。

    “店小二”是淘宝在各地产业带商家的一线服务人员。目前,淘宝已在温州、嘉兴、厦门、南通等26个产业带城市设立了店小二的属地。这些城市的共同特点,是拥有极强的制造能力。产地的优质货源,与淘宝的超9亿年度活跃消费者,形成完美的结合。但在很长一段时间,这些产业带由于缺少店铺运营能力,不少商家都在单打独斗中无疾而终了。有了“小二”的帮助,商家们对于如何线上经营门店更加清晰了。

    最后,在所有电商平台中,一头扎进农产带的拼多多,更是 以“产消直连”的独特方式,帮助商家加速数字化转型。

    一开始,针对未开店的新农人,拼多多会有一整套的激励机制,外加从种植、监测到仓储、物流的数字化农业支持,帮助产业带商家卖货。通过拼多多的拼团模式,扶持更多标杆新农人成长。然而,低价在前,品质在后。低价只是吸引流量的策略,尤其对于农产品来说,质量才是关键。因此,拼多多也开始重视起了品控,通过持续优化抽检、店铺评分、售后监测、消费反馈等措施,保障农产品的质量,从而也帮助商家实现品牌化。

    此外,“农云行动”负责人认为平台运营也很重要,“平台非常重视性价比,但是远远不止价格一个维度”。消费者会被低价吸引过来,但要想 保持粘性,产品和服务才更重要。如果店铺评分好,品牌潜力大,就不需要跟其他商家“卷价格”。

    由此可见,拼多多在农产带的野心,从关注产品“有没有”转到“好不好”,从吸引“流量”转到服务好“留量”。不仅是拼多多,京东和淘宝都在发挥各自优势,助力产业带的数字化发展。

    三、谁在重构产业带? 一条神秘无形的线,把经济划分出了“冰与火”的两级。在中国版图上,线的起点位于黑龙江黑河,线的终点在云南腾冲,这条45度的直线就是著名的“胡焕庸线”。而这条线不仅将房地产的两级划分了出来,也分割出了产业带的数字化程度。

    广东、浙江、深圳、上海、江苏等地一直都是产业带数字化程度较高的几大地区,而黑龙江、云南、青海等地区的产业带却长期落后。其主要原因与当地经济发展息息相关。因为,产业带的发展与地方经济会相互促进。比如,当地的品牌发展得好,也就意味着周边的供应链更完整,那么就会促进产业带发展。再比如,某地区GDP较高,数字化、智能化发展较为迅速,附近的产业带自然也会因此受益。

    此外,影响产业带发展因素的还有头部企业的密度,它与产业带集中度成正相关。阿里研究院在《中国数字化产业带研究报告》中指出,“品牌集中度越高的产业,产业带集中度往往上升幅度更大;品牌集中度越低,产业带集中度往往提升越小,甚至负增长。”

    所以, 中国产业带的数字化发展,一方面与当地经济有关;另一方面,也是更重要的一点是互联网的发展程度。两者看似相同但又不同,虽然地方经济发达,互联网发展一定较高,但反过来,互联网发展程度好,经济排名未必一定靠前。因为在未来,中国互联网的发展会遍布到每一个角落。

    目前来看,中国产业带数字化程度并不完善,而且还有很多行业需要规范。由于产业带商家的品牌意识较弱,较多企业家甚至政府都持有利用价格吸引流量的惯性思维。结果则是,当前产业带仍面临低价竞争困局,导致劣币驱逐良币的结果,影响整体行业质量和利润。

    找到这些问题的突破口不仅在于电商平台,政府也要在其中发挥重要作用。 比如,针对“劣币驱逐良币”现象,监管部门需要规范行业标准,从上到下影响企业决策,防止出现更严重的低价竞争,形成恶性循环。

    第二个突破口,在产业带密度较为集中的地区,培育头部品牌,再利用头部品牌带动产业带升级,从而打造品牌优势,而非价格优势。让数字化产业带成为激发地方经济的新窗口。

    在这盘产业带大旗里,京东、淘宝、拼多多正在成为鲜活的新注解。

    作者:思杭 

    来源公众号:产业家(ID:chanyejiawang),专注深度产业互联网内容

    本文由人人都是产品经理合作媒体 @产业家 授权发布,未经许可,禁止转载。

    题图来自Unsplash,基于 CC0 协议

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

    {{{path> 收藏 已收藏 {{ postmeta.bookmark }} {{{path> 点赞 已赞 {{ postmeta.postlike }}

  • AI绘画基础科普!一次性帮你搞懂所有技术名词

    UI交互 2023-04-15
    近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使...

    近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。

    对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使用和技巧,又面对着诸如 Lora、ControlNet、Dall-E 等复杂术语,不知道从何入手。通过收集资料,本文将从以下四个方面介绍目前最流行的 AI 绘图工具和模型训练方法,力求用通俗易懂的语言帮助大家理清术语背后的真实含义。

    一、文生图算法简介 text to image 技术,又称为文生图,是一种基于自然语言描述生成图像的技术。其历史可以追溯到 20 世纪 80 年代。

    随着深度学习技术的发展,特别是卷积神经网络 CNN 和循环神经网络 RNN 的出现,text to image 技术开始采用神经网络模型进行训练和生成。

    GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被应用于 text to image 任务的算法。

    随着计算机硬件和算法的不断进步,越来越多的新算法涌现出来,例如 Stable Diffusion 和 Dall-E 等。相较于传统算法如 GAN 和 VAE,这些新算法在生成高分辨率、高质量的图片方面表现更加卓越。

    Stable Diffusion(稳定扩散)是基于 DPM(Diffusion Probabistic models)的改进版本,DPM 是一种概率建模方法,旨在使用初始状态的噪声扰动来生成图像。模型会首先生成一张初始状态的噪声图像,然后通过逐步的运算过程逐渐消除噪声,将图像转换为目标图像。这也是我们在进行 Stable Diffusion 绘图时,首先需要确定噪声采样方式和采样步长的原因。

    Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作发布的一种人工智能技术,其源代码在 2022 年 8 月公开于 GitHub,任何人都可以拷贝和使用。该模型是使用包含 15 亿个图像文本数据的公开数据集 Line 5B 进行训练的。训练时使用了 256 个 Nvidia A100 GPU,在亚马逊网络服务上花费了 150,000 个 GPU 小时,总成本为 60 万美元。

    Dall-E 是 OpenAI 公司于 2021 年 1 月发布的一种基于 Transformer 和 GAN 的文本到图像生成算法,使用了大规模的预训练技术和自监督学习方法。Dall-E 的训练集包括了超过 250 万张图像和文本描述的组合。该算法的灵感来源于 2020 年 7 月 OpenAI 发布的 GPT-3 模型,后者是一种可以生成具有语言能力的人工智能技术。Dall-E 则是将 GPT-3 的思想应用于图像生成,从而实现了文本到图像的转换。

    2022 年 2 月,OpenAI 发布了 Dall-E2。相比于上一版本,Dall-E2 生成的图像质量更高,而且可以生成更加复杂和多样化的图像。Dall-E2 的训练集包括了超过 1 亿张图像和文本描述的组合,比 Dall-E 的训练集大 40 倍。

    当前 Dall-E 算法虽未开源,但已经有人尝试创建 Dall-E 的开源实现。比如,Crayon 前身为 Doy Mini,于 2022 年在 Hugging Face 的平台上发布。

    大部分的绘图工具都是基于 Stable Diffusion、Dall-E 相关的或类似或衍生的算法开发的,尤其是已经开源的稳定扩散算法。

    以下是与此相关的几个常见、广泛使用的 AI 绘图工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。

    二、AI 绘图工具介绍 接下来给大家介绍市面上常见的 AI 绘图工具:

    1. Midjourney

    Midjourney 是一个由 Leap Motion 的联合创始人 David Holz 创立的独立研究室,他们以相同的名称制作了一个人工智能程序,也就是我们常听到的 Midjourney 绘图软件。该软件于 2022 年 7 月 12 日进入公开测试阶段,基于 Stable Diffusion 算法开发,但尚未开源,只能通过 Discord 的机器人指令进行操作。

    https://www.midjourney.com/app/

    Discord 是一个在线聊天和语音交流平台,类似于我们常用的 QQ 聊天工具。Midjourney 官方提供了一个 discord 机器人,用户可以在 discord 中添加该机器人,进入指定的服务器进行绘图操作。具体方法是,登录 discord,在添加了 Midjourney Bot 的服务器中,在聊天框里输入“image”,然后输入绘图指令即可。

    Midjourney 是一个学习成本极低、操作简单的绘图工具,生成的图片非常有艺术感,因此以艺术风格闻名。只需输入任意关键词即可获得相对满意的绘图结果。绘图者只需要专注于设计好玩实用的绘图指令(Prompt),而无需花费太多精力在软件操作本身上。但是,Midjourney 的使用需要全程科学上网,并且使用成本相对较高。由于软件未开源,生成的图片可能无法满足用户的特定需求,只能通过寻找合适的关键词配合图像编辑软件来实现。

    超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J

    阅读文章 >

    2. Stable Diffusion

    Stable Diffusion 是一种算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同发布,于 2022 年 8 月开源。因此,用户可以下载 Stable Diffusion 的源代码,并通过各种方式在自己的电脑上进行本地部署。

    将 Stable Diffusion 分解后,有以下几个结构和模型。在训练时,输入的训练图像首先通过编码器模块进行编码,以进行降维,例如从 512*512 降到 64*64,这将大大加快训练速度。输入的文本长度是不固定的,通过文本编码器(通常是 clip 模型)将其转换为固定长度的向量以进行计算。这两者结合后,输入到 UNET 网络进行训练。训练后,图像通过解码器解码后恢复为 512*512 的图像。

    超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。

    阅读文章 >

    生成图像时候只需要带入一个初始化了的噪声图像和文本,二者组合后输入 UNET 网络进行去噪,最后通过 Dncoder 还原成清晰的图像。

    大家可能会认为安装和部署 Stable Diffusion 很困难,因为需要安装 Python 运行环境和一些依赖库,以及对 Python 语言有一定的编程经验。但是,有一些一键式的安装包可以帮助你快速搭建 stable diffusion 的环境。这些安装包包含了 Python 运行环境和相关的依赖库和代码。只需要下载安装包,然后根据指示进行几个简单的步骤,即可完成 Stable Diffusion 的安装和部署。

    最受欢迎的工具包是 GitHub 上 automatic 1111 用户创建的 Stable Diffusion Web UI。它是基于 radio 库的浏览器界面交互程序。具体的安装视频可以在各大知识平台都可以搜到,这里就不展开了。

    一键式安装包(包含 Python 运行环境,还集成了 Stable Diffusion 的相关依赖库和代码) https://github.com/AUTOMATIC1111/stable-diffusion-webui

    目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 内容和艺术家关键词,相当于封印了很多能力。

    Stable Diffusion Web UI 只是运行 Stable Diffusion 的可视化界面,就如一辆车子缺乏发动机,我们还需要从 Stability AI 的 Hugging Face 官网下载 Stable Diffusion 模型,才能开始运行 Stable Diffusion 绘图。

    本地运行 Stable Diffusion 需要较高的显卡配置,建议使用显存大于 8G 的 N 卡显卡。如果配置不够但还想体验一下,Stable Diffusion 有线上版本 DreamStudio,只是需要付费使用。新用户可以获得 200 个点数,每次标准生成将消耗一个点数。

    https://beta.dreamstudio.ai/generate?from=%2Fdream

    3. Dall-E

    Dall-E 是 OpenAI 旗下的一款 AI 绘图工具软件,与 ChatGPT 同属于一个公司。最新版本 Dall-E 2 于 2022 年 2 月发布。Dall-E 可以在线使用,Dall-E 会根据这些文字描述生成一张或多张图片,并显示在屏幕上。用户可以上传自己的图片,标记图像中的区域进行进一步的编辑和修改。Dall-E 还会根据已有图像的视觉元素对图像进行二次加工,延展图片边界。

    https://labs.openai.com/

    用户在注册的第一个月可以获得 50 个免费积分,每月可以获得 15 个积分,每张图片花费 1 个积分。如果需要更多的图像,用户需要付费。当前,Dall-E 算法并未公开源代码。

    4. NovelAI

    Nova AI 是由美国特拉华州的 Anlatan 公司开发的云端软件。最初,该软件于 2021 年 6 月 15 日推出测试版,其主要功能是辅助故事写作。之后,在 2022 年 10 月 3 日,Nova AI 推出了图像生成服务,由于其生成的二次元图片效果出众,因此它被广泛认为是一个二次元图像生成网站。

    https://novelai.net/

    Nova AI 的图像生成模型是使用 8 个 Nvidia A100 GPU 在基于 Damburu 的约 530 万张图片的数据集上训练而得到的,其底层算法也是基于 stable diffusion 模型微调而来的。

    使用 Nova AI 的方法很简单,只需登录官方网站,进入图像生成界面,输入关键字,即可生成图像。此外,由于 Novel AI 曾经发生过代码泄露,因此也可以下载 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。

    5. Disco Diffusion

    Disco Diffusion 是最早流行起来的 AI 绘图工具,发布于 Google Clab 平台。它的源代码完全公开且免费使用,可通过浏览器运行而无需对电脑进行配置。Disco Diffusion 基于 Diffusion 扩散模型开发,是在 Stable Diffusion 发布之前最受欢迎的扩散模型之一。然而,它在绘制人物方面表现不佳,且生成一张图片需要十几二十分钟的时间,因此在 Stable Diffusion 发布后逐渐失去了市场热度。

    6. 其他工具

    NiJiJourney 是一个专门针对二次元绘画的 AI 绘画软件,由 Spellbrush 和 Midjourney 共同推出。使用方法与 Midjourney 基本相同,用户可以在 Discord 上输入相应的绘画指令进行绘画。目前 NiJiJourney 处于内测阶段,绘画是免费的,但是版权问题尚未明确表态。预计在正式公测时,付费用户可以获得商用权利,与 Midjourney 类似。

    Waifu Diffusion 是一种基于扩散模型的 AI 绘图模型,它的早期版本 1.4 在动漫领域的绘图效果与 NovelAI 非常相似。有些人甚至认为 Waifu Diffusion 是在 NovelAI 模型的基础上进行微调得到的,但 Waifu Diffusion 团队表示他们的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并结果。我们可以从 Hugging Face 上下载 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。

    除此以外还有很多类似 Midjourney 的绘图工具,几乎都是基于 Stable Diffsion 或者类似算法进行开发。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些还具备图像修改、图像延展等功能,尽管这些软件还处于测试阶段,需要申请才能使用,但它们生成的图片质量不输 Midjourney,因此常被拿来与 Midjourney 进行对比。

    ① Leonardo AI

    https://leonardo.ai/

    ② BlueWillow AI

    https://www.bluewillow.ai/

    ③ Playground AI

    https://playgroundai.com/

    ④ Dreamlike

    https://dreamlike.art/

    ⑤ NightCafe.studio

    https://nightcafe.studio/

    三、模型训练相关名词 AI 大模型,也被称为基础模型(Foundation Model),是指将大量数据导入具有数亿甚至万亿级参数的模型中,通过人工智能算法进行训练。Stable Diffusion、NovelAI、Dall-E 等模型都属于大模型。这类大模型普遍的特点是参数多,训练时间长,具备泛化性、通用性、实用性,适用于各种场景的绘图。

    这类 AI 大模型也存在一个普遍的缺点,就是无法满足对细节控制或特定人物特定绘图风格的绘图需要。即便掌握了算法知识,训练一个好的 AI 绘图模型也需要强大的计算资源,这些计算资源对于普通人来说过于昂贵。例如 Stable Diffusion 在亚马逊网络服务上使用 256 个 NVIDIA A100 GPU 进行训练,总共花费了 15 万个 GPU 小时,成本为 60 万美元。

    于是,针对这些大模型的微调技术应运而生。为了达到绘制特定人物或特定绘图风格的需要,我们不需要重新训练大模型,只要提供几张图片和一张显卡,几个小时的时间就可以实现。也就是我们常听说的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它们都属于大模型的微调技术,可以在 Stable Diffusion Web UI 中进行训练后使用,感兴趣的话可以在 Civitai 进行下载。

    1. Embedding

    Text Coder 就像一本词典,输入文本后 Text Coder 能快速查找到符合要求的词向量,

    那如果出现新的关键词,text coder 上找不到该怎么办?这就是 Embedding 算法要做的事情,它通过训练在 Text Coder 中找到与新的词特征、风格相同的词向量。例如这个麒麟训练后可以看作龙羊虎的组合。

    Embedding 算法不改变大模型的基本结构,也不改变 text coder,所以就能达到微调模型的目的。对于风格的描述,一般需要较多的关键词。Embedding 对于复杂的词汇的调整结果并不太好,定义人物需要的关键词少,所以适用于对人物的训练。

    ② Hypernetwork

    与 Embedding 不同,Hypernetwork 是作用在 UNET 网络上的,UNET 神经网络相当于一个函数,内部有非常多的参数,Hypernetwork 通过新建一个神经网络,称之为超网络。超网络的输出的结果是 UNET 网络的参数。超网络不像 UNET,它的参数少,所以训练速度比较快,因此 Hypernetwork 能达到以较小时间空间成本微调模型的目的。

    Hypernetwork 会影响整个 UNET 的参数生成,理论上更适合风格的训练。Stable Diffusion Web UI 上也继承了 Embedding 和 Hypernetwork 的训练环境。

    3. Dreambooth

    Dreambooth 是 Google 在 2022 年 8 月提出的一种新的网络模型,它的强大之处在于能完整地保留你想要关键视觉特征。例如图中最左边的黄色闹钟上面一个醒目的黄色的。采用 Dreambooth 生成的新图像可以准确还原这个图像最右边这个样子。这需要模型能够准确识别物体的细节。你只需提供 3- 5 张的图像和文本提示作为输入,就可以达到很好的效果。Dreambooth 适合人物训练,改版的 Dreambooth 方法 native train 适合于风格的训练。

    Dreambooth 要求同时提供特征词加类别和类别文本图片信息带入模型进行训练,例如 a dog 和 a [V] dog。这样做的好处是既可以保留类别的原始信息,又可以学习到特征词加类别的新的信息。

    4. LoRA

    LoRA(Low-Rank Adaptation of large Language Models)是由微软研究员开发的一种用于微调大模型的技术。该技术建议冻结预训练模型的权重,并在每个 Transformer 块中注入可训练层,从而在保持大部分参数不变的情况下,调整局部的一些模型参数。由于不需要重新计算模型的权重参数的梯度,这大大减少了需要训练的计算量,并降低了 GPU 的内存要求。

    使用 LoRA 模型进行微调可以为我们提供更自由、更便捷的微调模型的方式。例如,它使我们能够在基本模型的基础上进一步指定整体风格、指定人脸等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。

    5. Controlnet

    Controlnet 是当前备受瞩目的 AI 绘图算法之一。它是一种神经网络结构,通过添加额外的条件来控制基础扩散模型,从而实现对图像构图或人物姿势的精细控制。结合文生图的操作,它还能实现线稿转全彩图的功能。

    Controlnet 的意义在于它不再需要通过大量的关键词来堆砌构图效果。即使使用大量关键词,生成的效果也难以令人满意。借助 Controlnet 可以在最开始就引导它往你需要的构图方向上走,从而实现更准确的图像生成。

    四 、VAE 模型的作用 正如我们之前介绍的,Stable Diffusion 在训练时会有一个编码(Encoder)和解码(Dncoder)的过程,我们将编码和解码模型称为 VAE 模型。预训练的模型,如官网下载的 Stable Diffusion 模型,一般都是内置了训练好的 VAE 模型的,不用我们再额外挂载。但有些大模型并不内置 VAE 模型,或者 VAE 模型经过多次训练融合不能使用了,就需要额外下载,并在 Stable Diffusion Web UI 中添加设置。如果不添加,出图的色彩饱和度可能会出问题,发灰或变得不清晰。大家可以根据模型说明信息来确定是否要下载 VAE。

    欢迎关注作者微信公众号: AI Design Center

  • 如何做好产品全局导航?来看高手的深度分析!

    UI交互 2023-04-15
    分析背景本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。更多导航干货:用一篇文章,完整梳理总结所有 iOS 导航模式编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计...

    分析背景

    本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。

    更多导航干货:

    用一篇文章,完整梳理总结所有 iOS 导航模式 编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计师 Frank Rausch 结合 WWDC 的演讲和相关规范进行了详尽的整理,仅此一篇帮你梳理清楚 iOS 的全部导航模式,以下为正文: Frank Rausch 所创建的这个页面包含了目前 iO

    阅读文章 >

    一、全局导航的作用 1.1 帮助用户确认在系统中的位置

    由于 B 端产品业务复杂、角色多样,页面层级结构往往比较多。这时候,清晰的 导航设计 能帮助用户认清“我在哪儿” ,避免迷路。

    1.2 告诉用户这里有什么

    B 端产品的系统架构通常通过导航结构来进行表现层上的划分,这时候,导航名称可以快速、直观地告诉用户该产品所包含的内容和层级。

    1.3 告诉用户如何使用网站

    清晰的导航就像一本用户使用指南,能够帮助用户规划行程,明确地提示用户从哪里开始,能进行哪些操作。

    导航的作用如此之大,因此,作为一个 UX 设计师 ,知道如何为狭小的屏幕空间选择合理的导航布局以准确表达业务需求是很重要的。

    二、全局导航布局定义 2.1 全局导航实例及总结

    下图是几个典型平台类产品的主界面,现在我们来观察一下这几个界面的“一级菜单-二级菜单-三级菜单的位置”。注意:不要把页眉看成横向导航菜单。

    其中,阿里云门户首页的一级菜单在上,二级菜单、三级菜单通过移入一级菜单出现,也可以看作在上;阿里云后台产品详情页一级菜单、二级菜单在左,内容页中还有页签作为内容页导航;易观数科后台一级菜单、二级菜单、三级菜单都在左边;神策数据后台一级菜单在上,二级菜单、三级菜单在左;网易首页的一级菜单、二级菜单都在上;百度首页只有一级菜单在上。

    根据以上梳理思路,结合更多实例,可以总结出全局导航布局不外乎有以下几种:左-左-左、左-左-上、左-上-上、左-上-左、上-上-上、上-上-左、上-左-左、上-左-上。(这 8 种布局跟后面提到的 Jennifer Rose Kingsburg 的实验素材是吻合的)

    2.2 全局导航布局极致提炼

    上面的总结中提到的布局太多,且相邻布局间差异又不鲜明,好像选这个也可以选那个也可以。为了让设计师更快地做出选用决策,就需要进一步提炼上述的 8 种布局。如何做呢?这次提炼,我们只关注一级导航的位置,及一级导航与内容区域的位置关系。

    基于此视角可看出:左-左-左的一级菜单在左,内容区域在右,左-左-上、左-上-上、左-上-左同理。上-上-上的一级菜单在上,内容区域在下,上-上-左、上-左-左、上-左-上同理。由此可将上述 8 种布局缩减为 2 种:上-下,左-右。

    上-下结构营造的沉浸感强,但是导航容量小,如果横向导航较多时会出现横向滚动条,导致滚动不便。左-右结构的导航时刻在视野内,可以随时切走,沉浸感较弱,不过这种结构的纵向导航容量大,导航较多时上下滚动方便。由此,我们就可以根据产品功能结构的规格来选择是使用上-下还是左-右结构。

    综上,以一级功能导航放在顶部还是放在左侧为套用切入点,设计师就可以根据产品业务形态和需求快速确定全局导航布局。

    注意:以一级功能导航的位置为切入点设计,并不是不管二级菜单,而是先定下是使用上-下还是左-右布局,再继续做二级菜单的延展设计。

    2.3 全局导航二级菜单放哪里

    上面提炼后的两种布局是理想情况,实际产品应用中,特别是 B 端产品,功能复杂,菜单层级往往不只一级。因此,如果我们确定了一级菜单的位置,还需考虑二级及更深层级菜单的展示方式。

    先来看二级菜单,该如何确定二级菜单的位置呢?Jennifer Rose Kingsburg 曾从操作时间、操作迟疑时间、错误移动次数、错误点击次数、喜好排名 5 个维度进行实验(他把 2.1 章节中提到的 8 种不同的全局导航布局,分别给 8 组用户使用,并得出数据),用以说明网页设计中应该如何设计导航体验更佳。

    接下来我们引用 Jennifer Rose Kingsburg 在论文《A comparison of three-level menu navigation structures for web design》中的实验数据并做分析,看二级菜单放在什么位置,体验更好。

    下图是 Jennifer Rose Kingsburg 的实验数据。

    Jennifer Rose Kingsburg 实验数据

    为了更直观地观察每种布局的用户体验满意程度,此篇文章已通过 10 分制将上述数据转化为分值(分值越高体验越好),见下图。

    实验数据转化为分值

    ①一二三级导航都在左边

    ②一二级导航在左边,三级导航在右边顶部(评分较高,主要原因在于不易发生错误移动和错误点击)

    ③一级导航在左边,二三级导航在右边顶部(评分最高,主要原因在于菜单全部平铺,操作时间短)

    ④一级导航在左边,二级导航在右边顶部,三级导航在右边左侧

    ⑤一二三级导航都在顶部

    ⑥一二级导航在顶部,三级导航在下边左侧

    ⑦一级导航在顶部,二三级导航在下边左侧(评分较高,主要原因在于不易发生错误点击)

    ⑧一级导航在顶部,二级导航在下边左侧,三级导航在下边顶部

    先看左-右结构,前四种布局中②③的平均分不相上下,单独看各个维度也是各有千秋。我们根据②③的二级导航的位置,可以将2.2章节中定义的左-右结构拓展为以下两种布局。

    左-右结构布局拓展

    同理,再看上下结构,后四种布局中⑦的平均分最高。我们根据⑦的二三级导航的位置,可以将2.2章节中定义的上-下结构拓展为以下布局。

    上-下结构布局拓展

    需要指出的是:三级导航以及更深层级导航可以看做是内容页内导航,是用③中的横向页签,还是用④中的树状菜单,需要根据内容页导航数量决定,二者可以同时存在于一套规范中。

    2.4 全局导航布局定义

    依据一级导航、次级导航的位置及用户体验满意程度,此篇文章定义了 3 种可供套用的导航布局,见下图。

    小知识

    在 2.1章节中提到“不要把页眉看成横向导航菜单”。为什么这么提醒呢?

    大家可以看下 2.1章节中神策数据的界面,它顶部导航承载的是功能导航,是真正关乎业务流程和用户任务流程闭环的功能导航,此时,我们就称它为顶部导航。而阿里云后台产品详情页界面,顶部导航承载的是一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,这种情况下,我们不称它为顶部导航,我们称其为页眉。

    上面说了,页眉承载着一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,是不大部分网站设计不可或缺的一部分。那如何判断加不加页眉呢?

    有一些特殊场景,比如:登录、注册、查看购物车、支付等场景下,用户需要沉浸式操作,不希望被干扰,所以不需要导航。但对于这些页面来说,仍需要站点名称可以回到主页,也需要一些实用工具可以提高留存率,这种情况下,就需要一个页眉(全站导航)来承载站点名称、实用工具。

    页眉还是导航

    如果是独立页眉,高度比较小,避免挤压下方内容空间,如果将页眉跟导航融合,页眉高度就是导航的高度。因此,在 2.4章节中做上-下结构布局拓展定义的时候,没有在顶部另起一行,而是将页眉内容融入到了顶部的一级导航里。

    三、套用规则定义 3.1 全局导航原子布局优缺点分析及适用场景

    3.2 全局导航拓展布局优缺点分析及适用场景

    小知识

    实际工作中,如果设计师能充分了解信息型产品和功能型产品的特点,有助于我们做出最佳决策。

    3.3 后话

    经过详细地分析和推导,此篇文章定义了适合兆日 B 端产品套用的 3 种全局导航布局(2 种原子布局)。各位观者也可以根据自己公司产品的业务形态,从用户体验角度出发,定义合理的全局导航布局,便于随时套用,从而节省前期分析的时间。

    欢迎关注团队微信公众号:兆日 UCD

  • 如何做好产品全局导航?来看高手的深度分析!

    UI交互 2023-04-15
    分析背景本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。更多导航干货:用一篇文章,完整梳理总结所有 iOS 导航模式编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计...

    分析背景

    本专题分析的目的在于分析和定义兆日后台系统全局导航布局和套用规则,以便后期平台改版及新平台初建的时候,能快速指导设计人员选用合理的全局导航布局,节省调研成本。

    更多导航干货:

    用一篇文章,完整梳理总结所有 iOS 导航模式 编者按:虽然苹果官方的人机交互指南非常详尽,但是很多信息都分散在设计规范的不同地方,设计师 Frank Rausch 结合 WWDC 的演讲和相关规范进行了详尽的整理,仅此一篇帮你梳理清楚 iOS 的全部导航模式,以下为正文: Frank Rausch 所创建的这个页面包含了目前 iO

    阅读文章 >

    一、全局导航的作用 1.1 帮助用户确认在系统中的位置

    由于 B 端产品业务复杂、角色多样,页面层级结构往往比较多。这时候,清晰的 导航设计 能帮助用户认清“我在哪儿” ,避免迷路。

    1.2 告诉用户这里有什么

    B 端产品的系统架构通常通过导航结构来进行表现层上的划分,这时候,导航名称可以快速、直观地告诉用户该产品所包含的内容和层级。

    1.3 告诉用户如何使用网站

    清晰的导航就像一本用户使用指南,能够帮助用户规划行程,明确地提示用户从哪里开始,能进行哪些操作。

    导航的作用如此之大,因此,作为一个 UX 设计师 ,知道如何为狭小的屏幕空间选择合理的导航布局以准确表达业务需求是很重要的。

    二、全局导航布局定义 2.1 全局导航实例及总结

    下图是几个典型平台类产品的主界面,现在我们来观察一下这几个界面的“一级菜单-二级菜单-三级菜单的位置”。注意:不要把页眉看成横向导航菜单。

    其中,阿里云门户首页的一级菜单在上,二级菜单、三级菜单通过移入一级菜单出现,也可以看作在上;阿里云后台产品详情页一级菜单、二级菜单在左,内容页中还有页签作为内容页导航;易观数科后台一级菜单、二级菜单、三级菜单都在左边;神策数据后台一级菜单在上,二级菜单、三级菜单在左;网易首页的一级菜单、二级菜单都在上;百度首页只有一级菜单在上。

    根据以上梳理思路,结合更多实例,可以总结出全局导航布局不外乎有以下几种:左-左-左、左-左-上、左-上-上、左-上-左、上-上-上、上-上-左、上-左-左、上-左-上。(这 8 种布局跟后面提到的 Jennifer Rose Kingsburg 的实验素材是吻合的)

    2.2 全局导航布局极致提炼

    上面的总结中提到的布局太多,且相邻布局间差异又不鲜明,好像选这个也可以选那个也可以。为了让设计师更快地做出选用决策,就需要进一步提炼上述的 8 种布局。如何做呢?这次提炼,我们只关注一级导航的位置,及一级导航与内容区域的位置关系。

    基于此视角可看出:左-左-左的一级菜单在左,内容区域在右,左-左-上、左-上-上、左-上-左同理。上-上-上的一级菜单在上,内容区域在下,上-上-左、上-左-左、上-左-上同理。由此可将上述 8 种布局缩减为 2 种:上-下,左-右。

    上-下结构营造的沉浸感强,但是导航容量小,如果横向导航较多时会出现横向滚动条,导致滚动不便。左-右结构的导航时刻在视野内,可以随时切走,沉浸感较弱,不过这种结构的纵向导航容量大,导航较多时上下滚动方便。由此,我们就可以根据产品功能结构的规格来选择是使用上-下还是左-右结构。

    综上,以一级功能导航放在顶部还是放在左侧为套用切入点,设计师就可以根据产品业务形态和需求快速确定全局导航布局。

    注意:以一级功能导航的位置为切入点设计,并不是不管二级菜单,而是先定下是使用上-下还是左-右布局,再继续做二级菜单的延展设计。

    2.3 全局导航二级菜单放哪里

    上面提炼后的两种布局是理想情况,实际产品应用中,特别是 B 端产品,功能复杂,菜单层级往往不只一级。因此,如果我们确定了一级菜单的位置,还需考虑二级及更深层级菜单的展示方式。

    先来看二级菜单,该如何确定二级菜单的位置呢?Jennifer Rose Kingsburg 曾从操作时间、操作迟疑时间、错误移动次数、错误点击次数、喜好排名 5 个维度进行实验(他把 2.1 章节中提到的 8 种不同的全局导航布局,分别给 8 组用户使用,并得出数据),用以说明网页设计中应该如何设计导航体验更佳。

    接下来我们引用 Jennifer Rose Kingsburg 在论文《A comparison of three-level menu navigation structures for web design》中的实验数据并做分析,看二级菜单放在什么位置,体验更好。

    下图是 Jennifer Rose Kingsburg 的实验数据。

    Jennifer Rose Kingsburg 实验数据

    为了更直观地观察每种布局的用户体验满意程度,此篇文章已通过 10 分制将上述数据转化为分值(分值越高体验越好),见下图。

    实验数据转化为分值

    ①一二三级导航都在左边

    ②一二级导航在左边,三级导航在右边顶部(评分较高,主要原因在于不易发生错误移动和错误点击)

    ③一级导航在左边,二三级导航在右边顶部(评分最高,主要原因在于菜单全部平铺,操作时间短)

    ④一级导航在左边,二级导航在右边顶部,三级导航在右边左侧

    ⑤一二三级导航都在顶部

    ⑥一二级导航在顶部,三级导航在下边左侧

    ⑦一级导航在顶部,二三级导航在下边左侧(评分较高,主要原因在于不易发生错误点击)

    ⑧一级导航在顶部,二级导航在下边左侧,三级导航在下边顶部

    先看左-右结构,前四种布局中②③的平均分不相上下,单独看各个维度也是各有千秋。我们根据②③的二级导航的位置,可以将2.2章节中定义的左-右结构拓展为以下两种布局。

    左-右结构布局拓展

    同理,再看上下结构,后四种布局中⑦的平均分最高。我们根据⑦的二三级导航的位置,可以将2.2章节中定义的上-下结构拓展为以下布局。

    上-下结构布局拓展

    需要指出的是:三级导航以及更深层级导航可以看做是内容页内导航,是用③中的横向页签,还是用④中的树状菜单,需要根据内容页导航数量决定,二者可以同时存在于一套规范中。

    2.4 全局导航布局定义

    依据一级导航、次级导航的位置及用户体验满意程度,此篇文章定义了 3 种可供套用的导航布局,见下图。

    小知识

    在 2.1章节中提到“不要把页眉看成横向导航菜单”。为什么这么提醒呢?

    大家可以看下 2.1章节中神策数据的界面,它顶部导航承载的是功能导航,是真正关乎业务流程和用户任务流程闭环的功能导航,此时,我们就称它为顶部导航。而阿里云后台产品详情页界面,顶部导航承载的是一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,这种情况下,我们不称它为顶部导航,我们称其为页眉。

    上面说了,页眉承载着一些独立栏目、频道等生态链入口,或者全局搜索及实用工具,是不大部分网站设计不可或缺的一部分。那如何判断加不加页眉呢?

    有一些特殊场景,比如:登录、注册、查看购物车、支付等场景下,用户需要沉浸式操作,不希望被干扰,所以不需要导航。但对于这些页面来说,仍需要站点名称可以回到主页,也需要一些实用工具可以提高留存率,这种情况下,就需要一个页眉(全站导航)来承载站点名称、实用工具。

    页眉还是导航

    如果是独立页眉,高度比较小,避免挤压下方内容空间,如果将页眉跟导航融合,页眉高度就是导航的高度。因此,在 2.4章节中做上-下结构布局拓展定义的时候,没有在顶部另起一行,而是将页眉内容融入到了顶部的一级导航里。

    三、套用规则定义 3.1 全局导航原子布局优缺点分析及适用场景

    3.2 全局导航拓展布局优缺点分析及适用场景

    小知识

    实际工作中,如果设计师能充分了解信息型产品和功能型产品的特点,有助于我们做出最佳决策。

    3.3 后话

    经过详细地分析和推导,此篇文章定义了适合兆日 B 端产品套用的 3 种全局导航布局(2 种原子布局)。各位观者也可以根据自己公司产品的业务形态,从用户体验角度出发,定义合理的全局导航布局,便于随时套用,从而节省前期分析的时间。

    欢迎关注团队微信公众号:兆日 UCD

  • AI绘画基础科普!一次性帮你搞懂所有技术名词

    UI交互 2023-04-15
    近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使...

    近期,以 Stable Diffusion、Dall-E、Midjourney 等软件或算法为代表的 AI 绘图技术引起了广泛关注。尤其是自 2022 年 8 月 Stable Diffusion 模型开源以来,更是加速了这一领域的发展。

    对于初学者来说,面对这些令人惊叹的 AI 绘图作品,他们既想了解绘图软件的使用和技巧,又面对着诸如 Lora、ControlNet、Dall-E 等复杂术语,不知道从何入手。通过收集资料,本文将从以下四个方面介绍目前最流行的 AI 绘图工具和模型训练方法,力求用通俗易懂的语言帮助大家理清术语背后的真实含义。

    一、文生图算法简介 text to image 技术,又称为文生图,是一种基于自然语言描述生成图像的技术。其历史可以追溯到 20 世纪 80 年代。

    随着深度学习技术的发展,特别是卷积神经网络 CNN 和循环神经网络 RNN 的出现,text to image 技术开始采用神经网络模型进行训练和生成。

    GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被应用于 text to image 任务的算法。

    随着计算机硬件和算法的不断进步,越来越多的新算法涌现出来,例如 Stable Diffusion 和 Dall-E 等。相较于传统算法如 GAN 和 VAE,这些新算法在生成高分辨率、高质量的图片方面表现更加卓越。

    Stable Diffusion(稳定扩散)是基于 DPM(Diffusion Probabistic models)的改进版本,DPM 是一种概率建模方法,旨在使用初始状态的噪声扰动来生成图像。模型会首先生成一张初始状态的噪声图像,然后通过逐步的运算过程逐渐消除噪声,将图像转换为目标图像。这也是我们在进行 Stable Diffusion 绘图时,首先需要确定噪声采样方式和采样步长的原因。

    Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作发布的一种人工智能技术,其源代码在 2022 年 8 月公开于 GitHub,任何人都可以拷贝和使用。该模型是使用包含 15 亿个图像文本数据的公开数据集 Line 5B 进行训练的。训练时使用了 256 个 Nvidia A100 GPU,在亚马逊网络服务上花费了 150,000 个 GPU 小时,总成本为 60 万美元。

    Dall-E 是 OpenAI 公司于 2021 年 1 月发布的一种基于 Transformer 和 GAN 的文本到图像生成算法,使用了大规模的预训练技术和自监督学习方法。Dall-E 的训练集包括了超过 250 万张图像和文本描述的组合。该算法的灵感来源于 2020 年 7 月 OpenAI 发布的 GPT-3 模型,后者是一种可以生成具有语言能力的人工智能技术。Dall-E 则是将 GPT-3 的思想应用于图像生成,从而实现了文本到图像的转换。

    2022 年 2 月,OpenAI 发布了 Dall-E2。相比于上一版本,Dall-E2 生成的图像质量更高,而且可以生成更加复杂和多样化的图像。Dall-E2 的训练集包括了超过 1 亿张图像和文本描述的组合,比 Dall-E 的训练集大 40 倍。

    当前 Dall-E 算法虽未开源,但已经有人尝试创建 Dall-E 的开源实现。比如,Crayon 前身为 Doy Mini,于 2022 年在 Hugging Face 的平台上发布。

    大部分的绘图工具都是基于 Stable Diffusion、Dall-E 相关的或类似或衍生的算法开发的,尤其是已经开源的稳定扩散算法。

    以下是与此相关的几个常见、广泛使用的 AI 绘图工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。

    二、AI 绘图工具介绍 接下来给大家介绍市面上常见的 AI 绘图工具:

    1. Midjourney

    Midjourney 是一个由 Leap Motion 的联合创始人 David Holz 创立的独立研究室,他们以相同的名称制作了一个人工智能程序,也就是我们常听到的 Midjourney 绘图软件。该软件于 2022 年 7 月 12 日进入公开测试阶段,基于 Stable Diffusion 算法开发,但尚未开源,只能通过 Discord 的机器人指令进行操作。

    https://www.midjourney.com/app/

    Discord 是一个在线聊天和语音交流平台,类似于我们常用的 QQ 聊天工具。Midjourney 官方提供了一个 discord 机器人,用户可以在 discord 中添加该机器人,进入指定的服务器进行绘图操作。具体方法是,登录 discord,在添加了 Midjourney Bot 的服务器中,在聊天框里输入“image”,然后输入绘图指令即可。

    Midjourney 是一个学习成本极低、操作简单的绘图工具,生成的图片非常有艺术感,因此以艺术风格闻名。只需输入任意关键词即可获得相对满意的绘图结果。绘图者只需要专注于设计好玩实用的绘图指令(Prompt),而无需花费太多精力在软件操作本身上。但是,Midjourney 的使用需要全程科学上网,并且使用成本相对较高。由于软件未开源,生成的图片可能无法满足用户的特定需求,只能通过寻找合适的关键词配合图像编辑软件来实现。

    超详细!AI 绘画神器 Midjourney 基础使用手册 一、前提条件 需要魔法: 新用户可免费创作 25 张图片,超过需要办会员 版权问题:会员生成的图片版权归创作者所有 Midjourney相关资讯: 二、注册/链接 服务器 温馨提示:下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网,右下角选择"J

    阅读文章 >

    2. Stable Diffusion

    Stable Diffusion 是一种算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同发布,于 2022 年 8 月开源。因此,用户可以下载 Stable Diffusion 的源代码,并通过各种方式在自己的电脑上进行本地部署。

    将 Stable Diffusion 分解后,有以下几个结构和模型。在训练时,输入的训练图像首先通过编码器模块进行编码,以进行降维,例如从 512*512 降到 64*64,这将大大加快训练速度。输入的文本长度是不固定的,通过文本编码器(通常是 clip 模型)将其转换为固定长度的向量以进行计算。这两者结合后,输入到 UNET 网络进行训练。训练后,图像通过解码器解码后恢复为 512*512 的图像。

    超详细!AI 绘画神器 Stable Diffusion 基础使用手册 一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择 目前文生图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。

    阅读文章 >

    生成图像时候只需要带入一个初始化了的噪声图像和文本,二者组合后输入 UNET 网络进行去噪,最后通过 Dncoder 还原成清晰的图像。

    大家可能会认为安装和部署 Stable Diffusion 很困难,因为需要安装 Python 运行环境和一些依赖库,以及对 Python 语言有一定的编程经验。但是,有一些一键式的安装包可以帮助你快速搭建 stable diffusion 的环境。这些安装包包含了 Python 运行环境和相关的依赖库和代码。只需要下载安装包,然后根据指示进行几个简单的步骤,即可完成 Stable Diffusion 的安装和部署。

    最受欢迎的工具包是 GitHub 上 automatic 1111 用户创建的 Stable Diffusion Web UI。它是基于 radio 库的浏览器界面交互程序。具体的安装视频可以在各大知识平台都可以搜到,这里就不展开了。

    一键式安装包(包含 Python 运行环境,还集成了 Stable Diffusion 的相关依赖库和代码) https://github.com/AUTOMATIC1111/stable-diffusion-webui

    目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 内容和艺术家关键词,相当于封印了很多能力。

    Stable Diffusion Web UI 只是运行 Stable Diffusion 的可视化界面,就如一辆车子缺乏发动机,我们还需要从 Stability AI 的 Hugging Face 官网下载 Stable Diffusion 模型,才能开始运行 Stable Diffusion 绘图。

    本地运行 Stable Diffusion 需要较高的显卡配置,建议使用显存大于 8G 的 N 卡显卡。如果配置不够但还想体验一下,Stable Diffusion 有线上版本 DreamStudio,只是需要付费使用。新用户可以获得 200 个点数,每次标准生成将消耗一个点数。

    https://beta.dreamstudio.ai/generate?from=%2Fdream

    3. Dall-E

    Dall-E 是 OpenAI 旗下的一款 AI 绘图工具软件,与 ChatGPT 同属于一个公司。最新版本 Dall-E 2 于 2022 年 2 月发布。Dall-E 可以在线使用,Dall-E 会根据这些文字描述生成一张或多张图片,并显示在屏幕上。用户可以上传自己的图片,标记图像中的区域进行进一步的编辑和修改。Dall-E 还会根据已有图像的视觉元素对图像进行二次加工,延展图片边界。

    https://labs.openai.com/

    用户在注册的第一个月可以获得 50 个免费积分,每月可以获得 15 个积分,每张图片花费 1 个积分。如果需要更多的图像,用户需要付费。当前,Dall-E 算法并未公开源代码。

    4. NovelAI

    Nova AI 是由美国特拉华州的 Anlatan 公司开发的云端软件。最初,该软件于 2021 年 6 月 15 日推出测试版,其主要功能是辅助故事写作。之后,在 2022 年 10 月 3 日,Nova AI 推出了图像生成服务,由于其生成的二次元图片效果出众,因此它被广泛认为是一个二次元图像生成网站。

    https://novelai.net/

    Nova AI 的图像生成模型是使用 8 个 Nvidia A100 GPU 在基于 Damburu 的约 530 万张图片的数据集上训练而得到的,其底层算法也是基于 stable diffusion 模型微调而来的。

    使用 Nova AI 的方法很简单,只需登录官方网站,进入图像生成界面,输入关键字,即可生成图像。此外,由于 Novel AI 曾经发生过代码泄露,因此也可以下载 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。

    5. Disco Diffusion

    Disco Diffusion 是最早流行起来的 AI 绘图工具,发布于 Google Clab 平台。它的源代码完全公开且免费使用,可通过浏览器运行而无需对电脑进行配置。Disco Diffusion 基于 Diffusion 扩散模型开发,是在 Stable Diffusion 发布之前最受欢迎的扩散模型之一。然而,它在绘制人物方面表现不佳,且生成一张图片需要十几二十分钟的时间,因此在 Stable Diffusion 发布后逐渐失去了市场热度。

    6. 其他工具

    NiJiJourney 是一个专门针对二次元绘画的 AI 绘画软件,由 Spellbrush 和 Midjourney 共同推出。使用方法与 Midjourney 基本相同,用户可以在 Discord 上输入相应的绘画指令进行绘画。目前 NiJiJourney 处于内测阶段,绘画是免费的,但是版权问题尚未明确表态。预计在正式公测时,付费用户可以获得商用权利,与 Midjourney 类似。

    Waifu Diffusion 是一种基于扩散模型的 AI 绘图模型,它的早期版本 1.4 在动漫领域的绘图效果与 NovelAI 非常相似。有些人甚至认为 Waifu Diffusion 是在 NovelAI 模型的基础上进行微调得到的,但 Waifu Diffusion 团队表示他们的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并结果。我们可以从 Hugging Face 上下载 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。

    除此以外还有很多类似 Midjourney 的绘图工具,几乎都是基于 Stable Diffsion 或者类似算法进行开发。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些还具备图像修改、图像延展等功能,尽管这些软件还处于测试阶段,需要申请才能使用,但它们生成的图片质量不输 Midjourney,因此常被拿来与 Midjourney 进行对比。

    ① Leonardo AI

    https://leonardo.ai/

    ② BlueWillow AI

    https://www.bluewillow.ai/

    ③ Playground AI

    https://playgroundai.com/

    ④ Dreamlike

    https://dreamlike.art/

    ⑤ NightCafe.studio

    https://nightcafe.studio/

    三、模型训练相关名词 AI 大模型,也被称为基础模型(Foundation Model),是指将大量数据导入具有数亿甚至万亿级参数的模型中,通过人工智能算法进行训练。Stable Diffusion、NovelAI、Dall-E 等模型都属于大模型。这类大模型普遍的特点是参数多,训练时间长,具备泛化性、通用性、实用性,适用于各种场景的绘图。

    这类 AI 大模型也存在一个普遍的缺点,就是无法满足对细节控制或特定人物特定绘图风格的绘图需要。即便掌握了算法知识,训练一个好的 AI 绘图模型也需要强大的计算资源,这些计算资源对于普通人来说过于昂贵。例如 Stable Diffusion 在亚马逊网络服务上使用 256 个 NVIDIA A100 GPU 进行训练,总共花费了 15 万个 GPU 小时,成本为 60 万美元。

    于是,针对这些大模型的微调技术应运而生。为了达到绘制特定人物或特定绘图风格的需要,我们不需要重新训练大模型,只要提供几张图片和一张显卡,几个小时的时间就可以实现。也就是我们常听说的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它们都属于大模型的微调技术,可以在 Stable Diffusion Web UI 中进行训练后使用,感兴趣的话可以在 Civitai 进行下载。

    1. Embedding

    Text Coder 就像一本词典,输入文本后 Text Coder 能快速查找到符合要求的词向量,

    那如果出现新的关键词,text coder 上找不到该怎么办?这就是 Embedding 算法要做的事情,它通过训练在 Text Coder 中找到与新的词特征、风格相同的词向量。例如这个麒麟训练后可以看作龙羊虎的组合。

    Embedding 算法不改变大模型的基本结构,也不改变 text coder,所以就能达到微调模型的目的。对于风格的描述,一般需要较多的关键词。Embedding 对于复杂的词汇的调整结果并不太好,定义人物需要的关键词少,所以适用于对人物的训练。

    ② Hypernetwork

    与 Embedding 不同,Hypernetwork 是作用在 UNET 网络上的,UNET 神经网络相当于一个函数,内部有非常多的参数,Hypernetwork 通过新建一个神经网络,称之为超网络。超网络的输出的结果是 UNET 网络的参数。超网络不像 UNET,它的参数少,所以训练速度比较快,因此 Hypernetwork 能达到以较小时间空间成本微调模型的目的。

    Hypernetwork 会影响整个 UNET 的参数生成,理论上更适合风格的训练。Stable Diffusion Web UI 上也继承了 Embedding 和 Hypernetwork 的训练环境。

    3. Dreambooth

    Dreambooth 是 Google 在 2022 年 8 月提出的一种新的网络模型,它的强大之处在于能完整地保留你想要关键视觉特征。例如图中最左边的黄色闹钟上面一个醒目的黄色的。采用 Dreambooth 生成的新图像可以准确还原这个图像最右边这个样子。这需要模型能够准确识别物体的细节。你只需提供 3- 5 张的图像和文本提示作为输入,就可以达到很好的效果。Dreambooth 适合人物训练,改版的 Dreambooth 方法 native train 适合于风格的训练。

    Dreambooth 要求同时提供特征词加类别和类别文本图片信息带入模型进行训练,例如 a dog 和 a [V] dog。这样做的好处是既可以保留类别的原始信息,又可以学习到特征词加类别的新的信息。

    4. LoRA

    LoRA(Low-Rank Adaptation of large Language Models)是由微软研究员开发的一种用于微调大模型的技术。该技术建议冻结预训练模型的权重,并在每个 Transformer 块中注入可训练层,从而在保持大部分参数不变的情况下,调整局部的一些模型参数。由于不需要重新计算模型的权重参数的梯度,这大大减少了需要训练的计算量,并降低了 GPU 的内存要求。

    使用 LoRA 模型进行微调可以为我们提供更自由、更便捷的微调模型的方式。例如,它使我们能够在基本模型的基础上进一步指定整体风格、指定人脸等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。

    5. Controlnet

    Controlnet 是当前备受瞩目的 AI 绘图算法之一。它是一种神经网络结构,通过添加额外的条件来控制基础扩散模型,从而实现对图像构图或人物姿势的精细控制。结合文生图的操作,它还能实现线稿转全彩图的功能。

    Controlnet 的意义在于它不再需要通过大量的关键词来堆砌构图效果。即使使用大量关键词,生成的效果也难以令人满意。借助 Controlnet 可以在最开始就引导它往你需要的构图方向上走,从而实现更准确的图像生成。

    四 、VAE 模型的作用 正如我们之前介绍的,Stable Diffusion 在训练时会有一个编码(Encoder)和解码(Dncoder)的过程,我们将编码和解码模型称为 VAE 模型。预训练的模型,如官网下载的 Stable Diffusion 模型,一般都是内置了训练好的 VAE 模型的,不用我们再额外挂载。但有些大模型并不内置 VAE 模型,或者 VAE 模型经过多次训练融合不能使用了,就需要额外下载,并在 Stable Diffusion Web UI 中添加设置。如果不添加,出图的色彩饱和度可能会出问题,发灰或变得不清晰。大家可以根据模型说明信息来确定是否要下载 VAE。

    欢迎关注作者微信公众号: AI Design Center


让你的品牌快速脱颖而出,抢占市场份额,提升销量
免费获取方案及报价
*我们会尽快和您联系,请保持手机畅通