新一代梗图之王,居然是它
编辑导语:最近,有一个推特账号上面发布的全都是一些离谱却又独特的梗图。本篇文章中作者结合自身体会对此展开了一系列讨论,感兴趣的小伙伴们快来一起看看吧。
最近我完全迷上了一个推特账号。
上面发的全都是些 描述十分离谱,却、又有一种独特风格 的梗图。
比如“怀孕的妇女将投石车瞄准最高法院”:
“达斯·维达偷走一辆独轮车的监控画面”:
还有“蜘蛛侠和古埃及”:
很难用文字来描述这些图片,有多么的离谱却又传神了。自从我每天开始转发这个账号,网友们都惊讶于我哪儿找来的这么多梗图……
这个账号,就是“奇怪的 Dall- E mini 生成图片” (Weird Dall·E Generations @weirddalle)。
在这个梗图横行网络,人们已经不能好好说话的年代,@weirddalle 成为了最新、最时髦,也最“古灵精怪”的梗图来源。它今年2月才注册,现在粉丝数量已经快要突破百万了。
然而,很多人其实并不知道,这个账号的背后,并非一位脑洞清奇和高产的画手,而是一个在最近已经火出天际的神经网络项目:DALL·E mini。
一、一个免费公开的项目,让所有人都变成“灵魂画手” 近两年,超巨大参数量规模的语言模型,是进展最迅猛的一个创新方向。包括 OpenAI 的 GPT-3、谷歌的 LaMDA 等,处理起各种各样的语言类任务,效果非常强大。
这些科技公司还在专门研究一个具体的语言任务:根据文字描述生成图片。 在这个任务方向上,OpenAI 的 DALL·E、谷歌的Imagen,以及 MidJourney 模型,都是非常知名的项目。
但是这些知名项目都是不公开或半公开的。比如 DALL·E 2,OpenAI 只给数量极其有限(大约几百人)的外部开发者和研究人员开放了使用权限。于是,家住美国休斯顿的开发者 Boris Dayma 决定,照着 DALL·E 2 的样子自己做一个小规模的免费版本出来,让大家玩个够。
这个项目,就是后来的 DALL·E mini。
这个项目本来是 Dayma 拿来参加 Hugging Face 挑战赛的,因为效果实在太棒,又是开源免费使用的,没过半年它就成功破圈,进入了主流社会的视野。
至于为什么一个出于爱好性质,由个人开发者做出来的图片生成模型,能够和 OpenAI 的 DALL·E 一代不相上下,在于这个小项目用了三个图片-描述平行数据库,分别为300万、1200万和1500万张图片,其中1500万的这个数据库正好是 OpenAI 的 YFCC100M 数据子集。
现在,大家正在疯狂地使用 DALL·E mini 进行创作输出。粉丝们甚至在 Reddit 上专门建立了一个subreddit社区,目前已经有超过8万名用户,在一个寻常的周四晚上,都有超过一千人同时在线:
在这个 subreddit 里,各式各样脑洞清奇的作品更是层出不穷:
有强迫模型生成 PPT 艺术字的:
有用它来伪造历史照片的:
图注:《星战》角色佳佳宾克斯在纽伦堡受审
虽然名字有点像,功能也基本一样,但 DALL·E mini 除了名字和训练数据库之外,跟 OpenAI 的 DALL·E 完全没有任何关系。 也是因为它最近实在太火,搞得 OpenAI 有意见了,Dayma 只好把自己的项目名称改成了 Craiyon。
听说此事之后,粉丝们还做了一张梗图,嘲笑 OpenAI 那边还在控制测试权限,这边 DALL·E mini 早就给全网玩嗨了……
Dayma 在本周三透露,目前 DALL·E mini 后台正在面临巨大的算力和流量压力,每天要处理大约500万次生成指令。他表示“做了这么一个怪怪的但是能用的东西出来,反而大家都挺喜欢的的”,自己还是挺开心。
更重要的是,把过去只有少数“AI 特权人士”才拥有工具,交到每一个普通网民的手上,才是正确的事情。
Dayma 在接受英国媒体“i”采访时指出,那些能够使用类似图片生成模型的 AI 精英们,通常只会把让他们自己感到满意的生成结果发出来,这容易让其它看热闹的人误以为这些模型已经非常厉害了,然而实际情况可能并非如此。
所以他才会捣鼓出 DALL·E mini 这个小玩意,让所有人都能用上,“这样大家才能真正明白这些模型到底水平如何。”
二、无所不能的语言模型,终于染指了艺术创作 2020年,OpenAI 的研究者揭开了 GPT-3 模型的盖头,当时的论文题为“Language Models are Few-Shot Learners”,直接点出了超大语言模型在多种非训练任务上具备强大的快速学习/掌握能力。
而在语言模型基础之上,面向图片生成这一专门任务方向而调试训练出的结果,像 DALL·E、DALL·E mini、Imagen、Midjourney 等的图片生成模型,更是展示出了令人惊讶的“艺术创作”能力。
2022年6月的一个星期一下午,传媒巨头赫斯特旗下时尚杂志《COSMO》位于纽约市的编辑开了一个视频电话会。会议的目的是为该杂志的6月刊设计一个封面,但和往常不同的是,位于西海岸的 OpenAI 员工也参与到了会议里。
《COSMO》的编辑们震惊于 OpenAI 在 AI 艺术创作上取得的惊人进展,决定邀请这家公司一同在传媒行业做一件从未发生过的事情:
让 DALL·E 2 来设计一本顶级时尚杂志的整版封面。
封面,对于传媒人来说是顶礼膜拜的一种存在,时尚媒体更是如此。对于一本时尚杂志,封面浓缩了编辑部的社交关系能力和艺术审美水准,让人一眼即可领略本期内容的精华,和杂志本身的积淀。
而当《COSMO》让 AI 来设计封面的决定在业界传开之后,难免有人诘问: 是否传媒创意行业也江郎才尽,将要和其它很多蓝白粉领工作一样,最终难免让位给 AI?
如果仅从这次视频会议的工作效率来看,肯定的答案似乎是显而易见的:DALL·E 2 以平均每次输入20秒的用时,就可以根据编辑输入的字句,生成对应的图片,而且一次可以出六版,相比人工画师,效率简直高出天际了。
只是,这些图片都令人不甚满意。
最终,六位参会者不断地打磨和迭代输入的文本,又经过了一整夜之后,DALL·E 2 才终于生成了令所有人都满意的封面结果。
图片来源:COSMO 杂志
输入语句:“从下往上的广角拍摄,一个有着健美女性身材的女性宇航员,在火星上和无限的宇宙背景中中大摇大摆地走向相机,采用合成波风格 (synthwave)。”
图片来源:OpenAI/COSMO 杂志
采用 DALL·E 2 “outpainting”功能,根据初始生成的图片,不断在边缘处进行“补完”,最终生成一张连贯的图片。
在今天,DALL·E 2、DALL·E mini、MidJourney、Imagen 在生成视觉艺术上的确展现出极大的潜力。 但如果你仔细想,它更大的意义,其实在于为那些“空有灵感”却没有视觉创作技艺的人,也即互联网上的每个你和我,赋予了一件强大的工具。
DALL·E 项目产品经理 Joanne Jang 表示,OpenAI 最终肯定还是希望能够将 DALL·E 2 商业化的,但希望在艺术生成的这个方向上,把它做成一个创作者的工具,而不是替代品。
没有任何工具 应该 替代创作者本人的艺术理解和表达对创作产物所造成的影响。但是,当文字生成图片技术进一步普及过后,难免出现大批入门级创作者沦为模型的“操作员”,过度依赖工具。
参与了《COSMO》封面项目的数字艺术家 KarenCheng 认为,AI的采用确实会对各行各业造成深远影响,让很多人失去工作, “不过与此同时,创意将会迎来一次爆发,新的工种也将被创造出来,那种可能性是今天的我们所无法想象的。”
作者:杜晨;编辑:Vicky Xiao
来源:https://mp.weixin.qq.com/s/iy5R7NjFThYp8EubtkT6dw
本文由 @硅星人 授权发布于人人都是产品经理,未经作者许可,禁止转载
题图来自 Unsplash,基于 CC0 协议