10秒出图,以假乱真!设计师「用嘴修图」的愿望要成真了? 收藏
大家好,我是和你们聊设计的花生~
之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合作为艺术创作的灵感来源。
堪比艺术家!被疯狂安利的 AI 插画神器 Disco Diffusion 有多强? 大家好,我是和你们聊设计的花生~ 有关注「神器挖掘机」阿文(微博 @Simon_阿文 )的朋友,可能已经了解到他最近正在疯狂安利一款 AI 绘画神器——Disco Diffusion。
阅读文章 >
那如果现在有一款新的 AI 图像工具,它可以根据你给出的「文本提示」,自动合成犹如照片般的真实场景,或者可以根据你给出的文字提示自动修改照片中的某个部分,而且毫无 PS 痕迹,你会怎么看呢?
有关注阿文(微博 @Simon_阿文)的小伙伴可能已经知道,已经有人工智能可以实现上述功能了,而且生成速度极快,图片质量非常高。今天我要和大家介绍的,就是这样一个能根据语言描述,创建逼真的图像和艺术的人工智能系统 —— DALL·E 2 。
DALL·E 2 主要功能 DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统,它不仅可以更根据文本描述生成对应的逼真图像,还可以根据文本提示修改图像内容,以及根据给定的图像拓展生成多种主题风格一致的“变体”。
1. 图像生成功能
我们先来看一组图片:
这些图片是不是看起来非常真实?如同用相机拍出来的一样。但其实,这些图片都是 DALL·E 2 根据给定的文本,通过模型渲染出来的,是完全的虚拟产物。
这就是 DALL·E 2 最主要也是最擅长的功能——根据语句描述创建逼真的图像和艺术。以往我们想得到一个具体的场景,需要通过布景摄影或者绘画来实现,一些具有真实感的奇幻场景更少不了后期合成,而DALL·E 2让这一切都不再复杂。
除了生成逼真的图像,DALL·E 2 也能根据提示生成具有不同艺术风格的图像:
图片来源:DALL·E 2 官方 Instagram
2. 图像修改功能
除了根据文本描述提示生成图像,DALL·E 2 还可以根据给出的提示,修改现有图像。
这种修改包括删除、增加、替换、重塑图片的任意部分,同时考虑阴影、反射和纹理等各方面影响,修改后的图像看不任何修改痕迹。
图片来源:DALL·E 2 官网
之前优设有给大家推荐过智能修图软件,可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼,可以直接添加或替换元素,这对 设计师 来说无疑是提高工作效率的利器。
3秒无痕修图!在线黑科技修图神器 Magic Eraser 大家好,我是和你们聊设计的花生~ 抠图和修图是每个设计师都必须花时间处理的日常工作,它们虽然难度不高,但需要处理的频次不低,所以很多时候我们都会借助智能工具来处理。
阅读文章 >
3. 风格延展功能
DALL·E 2 可以根据一张给定的图片,生成许多与之相关的“变体”。这些“变体”在主题与风格上与原图保持一致,在其他细节方面会自动生成很多变化。
图片来源:DALL·E 2 官网
DALL·E 2 的优点及不足 不同于 Disco Difussion 的 CLIP+generator,DALL·E 2 开发了一种新的文本-图像生成方法,称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图像准确程度还是图像生成速度上,都有了极大地提升。
OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程
1. 极高的图像质量及精准度
在 2021 年 1 月,OpenAI 公司就推出了 DALL·E 1,但那时生成出的图片质量较低,与提示文本的匹配度也只有 71.7%。一年后,新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图像,匹配程度也上升至 88.8%,生成的图像更逼真准确。
图片来源:DALL·E 2 官网
通过深度学习,DALL·E 2 还能如人一样理解两个物体间的关系。
当你输入文本“一只考拉骑着摩托车”时,DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系,然后自动创作相应的图像。
图片来源:DALL·E 2 官网
2. 极快的图像生成速度
平时我们需要找到一张符合主题的图片,少不了要去不同的网站搜索一番;要修改图片的某一部分,也需要手动用图片工具调整,所需的时间都不算少。
而 DALL·E 2 能在或十几秒内,就生成与文本匹配的图像,一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再需要人工一点点去修复,修复质量也更精准自然。
Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频,视频中由文本生成图片只需几秒。
视频地址: https://twitter.com/karenxcheng/status/1513569345049280512
DALL·E 2 的 unCLIP 模型使其生成的图像与文本提示的匹配度非常高,不像 Disco Diffusion 一样会错误理解文本描述,将水印或者把艺术家本人当成关联图像的一部分。
但如果 DALL·E 2 的模型在训练过程中,学习到的图像与其关联标签是错误的,那么最终生成的图像结果就是错误的。比如,训练到的信息是:与图片 「飞机」关联的标签是 「车」,那么其在生成关于「车」的图片时,就会产生包含「飞机」的图片,并不像人一样能主动进行纠错。
另外 DALL·E 2 在生成的多角度真实图像时,也会出现透视比例失真问题。
DALL·E 2 的潜在机遇与风险 DALL·E 2 功能如此强大迷人,想必大家都非常想亲自使用体验。但非常遗憾,DALL·E 2 的程序目前并不对公众开发,我们目前在网上看到的 DALL·E 2 相关信息,都是 DALL·E 2 官网、内部工作人员及少数特邀的相关行业专家发布出来的。
如果想要使用 DALL·E 2,目前唯一的办法就是通过官网申请进入候补名单,等待官方的邀请。
之所以采取这样谨慎的方式,是因为 OpenAI 公司深知 DALL·E 2 强大的图像生成和修改技术一旦开放使用,将会给社会的很多方面带来极大冲击和影响。
从好的方面来说,DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图像来解释抽象的原理或者概念;也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型,并可以随时修改;甚至可以将 DALL·E 2 作为生产工具,成为艺术创作流程的一部分。
推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为主题,生成了 1000 张相关图像,这些图像已经被整理成一本书,分享在 「Internet Archive」 上共所有人免费下载阅读。
但 DALL·E 2 也存在着被滥用的风险,比如用以生成血腥、暴力、露骨、低俗内容;伪造虚假的图像威胁诬告他人;或生成重大事件的虚假图像误导社会舆论等。
为了避免此类问题,DALL·E 2 对系统模型进行了预训练过滤,所有暴力、露骨内容都从其训练数据中删除,以限制 DALL·E 2 生成相关图像的能力。但是这并不能完全杜绝相关内容的出现,一些间接的描述可以绕过 DALL·E 2 的过滤设置。
下图是官方给出的一张示例,我们可以从中感受到人工智能被滥用的可怕后果。
此外,DALL·E 2 也带有一些原生的限制。据官方介绍,DALL·E 2 在默认情况下生成的图像,都以白人和西方文化特征为主,比如涉及到“婚礼”时,会假定是西方婚礼传统,并默认为异性恋夫妇。而且存在一些“刻板印象”:涉及到 CEO,图像都是男性,而涉及到空姐、护士的概念时,形象都是女性等,这些都是 DALL·E 2 目前正在改进并需要不断完善的地方。
总结 DALL·E 2 通过文本提示进行图像生成及修改方面的功能非常强大,可以达到以假乱真的地步。它的出现,无疑会给艺术、营销、设计、研究相关行业带来革命性的改变,但同时也存在被滥用的风险,需要谨慎、有限制性地使用。
DALL·E 2 程序目前没有对社会公众开放,想要体验功能的小伙伴,可以用进入 DALL·E 2 官网: https://openai.com/blog/dall-e/ 申请加入候补者名单。
如果你非常幸运得到了 DALL·E 2 名额,记得一定要仔细阅读官方给出的 「政策声明」 ,里面详细说明了 DALL·E 2 及生成图像的使用规范,如 DALL·E 2 生成的图像不可被用于商业用途,生成的图像不能侵犯他人肖像权(包括公众人物),图像发布到网络上时需明确注释是使用人工智能生成的等等。
参考资料:
https://www.lesswrong.com/posts/r99tazGiLgzqFX7ka/playing-with-dall-e-2
https://www.dezeen.com/2022/04/21/openai-dall-e-2-unseen-images-basic-text-technology/
https://80.lv/articles/transforming-images-with-openai-dall-e-2/
https://github.com/openai/dalle-2-preview/blob/main/system-card.md
https://weibo.com/1757693565/Lq4NV6ent?pagetype=profilefeed