-
免费!支持超过 100 种格式的图片格式转换神器「Pixelied」
UI交互 2022-04-30Pixelied 是一家提供相片编辑器的服务商,旗下有个「Free Image Converter」的图片格式转换工具,让使用者通过浏览器进行在线批次编辑...Pixelied 是一家提供相片编辑器的服务商,旗下有个「Free Image Converter」的图片 格式转换 工具,让使用者通过浏览器进行在线批次编辑,而且不用担心降低照片画质,也无需下载或安装任何应用程序,提供最快速、免费且易于使用的图片转文件功能,这项服务支持各种常见 图片格式 包括 PNG、JPG、WebP、SVG、GIF、AVIF 和 TIFF 等超过 100 种格式。
依照 Pixelied 说明,「Free Image Converter」可以批次进行图片格式转换,举例来说将 WebP 图片全数转为 PNG 或是将 JPG 全部转为 PNG 等等,将原始相片拖曳到网页进行上传,选择要转换的目标格式后就可以自动进行转文件,如果图片数量较多,还能将转换后的图片一次打包下载。
之前还介绍过其他类似的工具:
想转换图片格式?用这个在线网站超方便! 这几年很常在网络上看到图片格式「WebP」,使用先进的压缩技术可有效减少文件大小,达到和 JPEG 格式相同图片质量,而现今在网页上较常看到的格式包括 PNG、JPG、GIF 和 WebP,如果就方便性来说前两者还是略胜,也是大家普遍都会用到的格式,但有许多网络服务考虑到流量和速度问题,
阅读文章 >
想转换PDF/视频/图片的格式?收下这个在线免费神器! 本文要介绍「TinyWow」是一个免费在线工具,首页明确标示「这是一个解决文件问题的工具」,使用者在 TinyWow 可以找到各种解决问题的功能,主要有 PDF、视频、图片、文件和其他工具,使用上也非常简单,选择要用的功能、将文件上传后就能进行处理,完全不用额外安装软件,不过要注意的是这
阅读文章 >
免费超好用!支持视频、音频、图片格式转换的在线神器「Convertr」 若偶尔需要对文件进行转档,但又找不到适合的转换工具,直接打开 Convertr.org 将文件拖曳进去、选择要转换的格式就能处理。
阅读文章 >
Pixelied Free Image Converter 网站链接: https://pixelied.com/convert/
使用教学
开启 Pixelied 的 Free Image Converter 免费图片转换功能,点选「Choose Files」选择要转文件的原始图片或是直接将图片拖曳到网站上传,依照说明,转换图片只需要四个步骤就能轻松完成。
接着图片会逐一被上传到 Pixelied 转换器,不过不用担心,Pixelied 表示他们会在 24 小时后自动从服务器删除图片,不会处理或是储存用户的图片,所有档案会以最高的安全性和隐私处理。
预设情况下画质会降低为 85%,若不希望转档后影响到原始画质,点选左上角「Settings」将质量调高为 100 即可维持原有画质。
接着从上方「To: Choose file type」选择要转换的新格式,支持 PNG、SVG、JPEG、GIF、WebP、AVIF、TIFF 和 Base64 编码。
点选右上角「Start Conversion」开始全部转换,也可单独点选每个图片后方的「Convert to」转为特定图片格式,转换时如果图片较多需要一些等待时间。
转档完成后点选右上角「Download All」将所有新的图片打包、一次下载。
前面有提到 Pixelied 本身是提供相片编辑器的公司,在图片转换工具也有整合编辑功能,点选图片后方的「Edit PNG」按钮开启编辑功能,就能通过 Pixelied 编辑器对相片进行更细部的调整。
值得一试的三个理由:
1. Pixelied 提供在线图片转文件工具,可将图片转换为各种常见格式
2. 支持超过 100 种图片格式,在没有降低画质的情况下转档
3. 转换后批次打包、下载所有图片文件,亦可使用在线编辑器细部调整
-
免费!支持超过 100 种格式的图片格式转换神器「Pixelied」
UI交互 2022-04-30Pixelied 是一家提供相片编辑器的服务商,旗下有个「Free Image Converter」的图片格式转换工具,让使用者通过浏览器进行在线批次编辑...Pixelied 是一家提供相片编辑器的服务商,旗下有个「Free Image Converter」的图片 格式转换 工具,让使用者通过浏览器进行在线批次编辑,而且不用担心降低照片画质,也无需下载或安装任何应用程序,提供最快速、免费且易于使用的图片转文件功能,这项服务支持各种常见 图片格式 包括 PNG、JPG、WebP、SVG、GIF、AVIF 和 TIFF 等超过 100 种格式。
依照 Pixelied 说明,「Free Image Converter」可以批次进行图片格式转换,举例来说将 WebP 图片全数转为 PNG 或是将 JPG 全部转为 PNG 等等,将原始相片拖曳到网页进行上传,选择要转换的目标格式后就可以自动进行转文件,如果图片数量较多,还能将转换后的图片一次打包下载。
之前还介绍过其他类似的工具:
想转换图片格式?用这个在线网站超方便! 这几年很常在网络上看到图片格式「WebP」,使用先进的压缩技术可有效减少文件大小,达到和 JPEG 格式相同图片质量,而现今在网页上较常看到的格式包括 PNG、JPG、GIF 和 WebP,如果就方便性来说前两者还是略胜,也是大家普遍都会用到的格式,但有许多网络服务考虑到流量和速度问题,
阅读文章 >
想转换PDF/视频/图片的格式?收下这个在线免费神器! 本文要介绍「TinyWow」是一个免费在线工具,首页明确标示「这是一个解决文件问题的工具」,使用者在 TinyWow 可以找到各种解决问题的功能,主要有 PDF、视频、图片、文件和其他工具,使用上也非常简单,选择要用的功能、将文件上传后就能进行处理,完全不用额外安装软件,不过要注意的是这
阅读文章 >
免费超好用!支持视频、音频、图片格式转换的在线神器「Convertr」 若偶尔需要对文件进行转档,但又找不到适合的转换工具,直接打开 Convertr.org 将文件拖曳进去、选择要转换的格式就能处理。
阅读文章 >
Pixelied Free Image Converter 网站链接: https://pixelied.com/convert/
使用教学
开启 Pixelied 的 Free Image Converter 免费图片转换功能,点选「Choose Files」选择要转文件的原始图片或是直接将图片拖曳到网站上传,依照说明,转换图片只需要四个步骤就能轻松完成。
接着图片会逐一被上传到 Pixelied 转换器,不过不用担心,Pixelied 表示他们会在 24 小时后自动从服务器删除图片,不会处理或是储存用户的图片,所有档案会以最高的安全性和隐私处理。
预设情况下画质会降低为 85%,若不希望转档后影响到原始画质,点选左上角「Settings」将质量调高为 100 即可维持原有画质。
接着从上方「To: Choose file type」选择要转换的新格式,支持 PNG、SVG、JPEG、GIF、WebP、AVIF、TIFF 和 Base64 编码。
点选右上角「Start Conversion」开始全部转换,也可单独点选每个图片后方的「Convert to」转为特定图片格式,转换时如果图片较多需要一些等待时间。
转档完成后点选右上角「Download All」将所有新的图片打包、一次下载。
前面有提到 Pixelied 本身是提供相片编辑器的公司,在图片转换工具也有整合编辑功能,点选图片后方的「Edit PNG」按钮开启编辑功能,就能通过 Pixelied 编辑器对相片进行更细部的调整。
值得一试的三个理由:
1. Pixelied 提供在线图片转文件工具,可将图片转换为各种常见格式
2. 支持超过 100 种图片格式,在没有降低画质的情况下转档
3. 转换后批次打包、下载所有图片文件,亦可使用在线编辑器细部调整
-
10秒出图,以假乱真!设计师「用嘴修图」的愿望要成真了?
UI交互 2022-04-29大家好,我是和你们聊设计的花生~ 之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合...大家好,我是和你们聊设计的花生~
之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合作为艺术创作的灵感来源。
堪比艺术家!被疯狂安利的 AI 插画神器 Disco Diffusion 有多强? 大家好,我是和你们聊设计的花生~ 有关注「神器挖掘机」阿文(微博 @Simon_阿文 )的朋友,可能已经了解到他最近正在疯狂安利一款 AI 绘画神器——Disco Diffusion。
阅读文章 >
那如果现在有一款新的 AI 图像工具,它可以根据你给出的「文本提示」,自动合成犹如照片般的真实场景,或者可以根据你给出的文字提示自动修改照片中的某个部分,而且毫无 PS 痕迹,你会怎么看呢?
有关注阿文(微博 @Simon_阿文)的小伙伴可能已经知道,已经有人工智能可以实现上述功能了,而且生成速度极快,图片质量非常高。今天我要和大家介绍的,就是这样一个能根据语言描述,创建逼真的图像和艺术的人工智能系统 —— DALL·E 2 。
DALL·E 2 主要功能 DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统,它不仅可以更根据文本描述生成对应的逼真图像,还可以根据文本提示修改图像内容,以及根据给定的图像拓展生成多种主题风格一致的“变体”。
1. 图像生成功能
我们先来看一组图片:
这些图片是不是看起来非常真实?如同用相机拍出来的一样。但其实,这些图片都是 DALL·E 2 根据给定的文本,通过模型渲染出来的,是完全的虚拟产物。
这就是 DALL·E 2 最主要也是最擅长的功能——根据语句描述创建逼真的图像和艺术。以往我们想得到一个具体的场景,需要通过布景摄影或者绘画来实现,一些具有真实感的奇幻场景更少不了后期合成,而DALL·E 2让这一切都不再复杂。
除了生成逼真的图像,DALL·E 2 也能根据提示生成具有不同艺术风格的图像:
图片来源:DALL·E 2 官方 Instagram
2. 图像修改功能
除了根据文本描述提示生成图像,DALL·E 2 还可以根据给出的提示,修改现有图像。
这种修改包括删除、增加、替换、重塑图片的任意部分,同时考虑阴影、反射和纹理等各方面影响,修改后的图像看不任何修改痕迹。
图片来源:DALL·E 2 官网
之前优设有给大家推荐过智能修图软件,可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼,可以直接添加或替换元素,这对 设计师 来说无疑是提高工作效率的利器。
3秒无痕修图!在线黑科技修图神器 Magic Eraser 大家好,我是和你们聊设计的花生~ 抠图和修图是每个设计师都必须花时间处理的日常工作,它们虽然难度不高,但需要处理的频次不低,所以很多时候我们都会借助智能工具来处理。
阅读文章 >
3. 风格延展功能
DALL·E 2 可以根据一张给定的图片,生成许多与之相关的“变体”。这些“变体”在主题与风格上与原图保持一致,在其他细节方面会自动生成很多变化。
图片来源:DALL·E 2 官网
DALL·E 2 的优点及不足 不同于 Disco Difussion 的 CLIP+generator,DALL·E 2 开发了一种新的文本-图像生成方法,称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图像准确程度还是图像生成速度上,都有了极大地提升。
OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程
1. 极高的图像质量及精准度
在 2021 年 1 月,OpenAI 公司就推出了 DALL·E 1,但那时生成出的图片质量较低,与提示文本的匹配度也只有 71.7%。一年后,新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图像,匹配程度也上升至 88.8%,生成的图像更逼真准确。
图片来源:DALL·E 2 官网
通过深度学习,DALL·E 2 还能如人一样理解两个物体间的关系。
当你输入文本“一只考拉骑着摩托车”时,DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系,然后自动创作相应的图像。
图片来源:DALL·E 2 官网
2. 极快的图像生成速度
平时我们需要找到一张符合主题的图片,少不了要去不同的网站搜索一番;要修改图片的某一部分,也需要手动用图片工具调整,所需的时间都不算少。
而 DALL·E 2 能在或十几秒内,就生成与文本匹配的图像,一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再需要人工一点点去修复,修复质量也更精准自然。
Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频,视频中由文本生成图片只需几秒。
视频地址: https://twitter.com/karenxcheng/status/1513569345049280512
DALL·E 2 的 unCLIP 模型使其生成的图像与文本提示的匹配度非常高,不像 Disco Diffusion 一样会错误理解文本描述,将水印或者把艺术家本人当成关联图像的一部分。
但如果 DALL·E 2 的模型在训练过程中,学习到的图像与其关联标签是错误的,那么最终生成的图像结果就是错误的。比如,训练到的信息是:与图片 「飞机」关联的标签是 「车」,那么其在生成关于「车」的图片时,就会产生包含「飞机」的图片,并不像人一样能主动进行纠错。
另外 DALL·E 2 在生成的多角度真实图像时,也会出现透视比例失真问题。
DALL·E 2 的潜在机遇与风险 DALL·E 2 功能如此强大迷人,想必大家都非常想亲自使用体验。但非常遗憾,DALL·E 2 的程序目前并不对公众开发,我们目前在网上看到的 DALL·E 2 相关信息,都是 DALL·E 2 官网、内部工作人员及少数特邀的相关行业专家发布出来的。
如果想要使用 DALL·E 2,目前唯一的办法就是通过官网申请进入候补名单,等待官方的邀请。
之所以采取这样谨慎的方式,是因为 OpenAI 公司深知 DALL·E 2 强大的图像生成和修改技术一旦开放使用,将会给社会的很多方面带来极大冲击和影响。
从好的方面来说,DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图像来解释抽象的原理或者概念;也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型,并可以随时修改;甚至可以将 DALL·E 2 作为生产工具,成为艺术创作流程的一部分。
推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为主题,生成了 1000 张相关图像,这些图像已经被整理成一本书,分享在 「Internet Archive」 上共所有人免费下载阅读。
但 DALL·E 2 也存在着被滥用的风险,比如用以生成血腥、暴力、露骨、低俗内容;伪造虚假的图像威胁诬告他人;或生成重大事件的虚假图像误导社会舆论等。
为了避免此类问题,DALL·E 2 对系统模型进行了预训练过滤,所有暴力、露骨内容都从其训练数据中删除,以限制 DALL·E 2 生成相关图像的能力。但是这并不能完全杜绝相关内容的出现,一些间接的描述可以绕过 DALL·E 2 的过滤设置。
下图是官方给出的一张示例,我们可以从中感受到人工智能被滥用的可怕后果。
此外,DALL·E 2 也带有一些原生的限制。据官方介绍,DALL·E 2 在默认情况下生成的图像,都以白人和西方文化特征为主,比如涉及到“婚礼”时,会假定是西方婚礼传统,并默认为异性恋夫妇。而且存在一些“刻板印象”:涉及到 CEO,图像都是男性,而涉及到空姐、护士的概念时,形象都是女性等,这些都是 DALL·E 2 目前正在改进并需要不断完善的地方。
总结 DALL·E 2 通过文本提示进行图像生成及修改方面的功能非常强大,可以达到以假乱真的地步。它的出现,无疑会给艺术、营销、设计、研究相关行业带来革命性的改变,但同时也存在被滥用的风险,需要谨慎、有限制性地使用。
DALL·E 2 程序目前没有对社会公众开放,想要体验功能的小伙伴,可以用进入 DALL·E 2 官网: https://openai.com/blog/dall-e/ 申请加入候补者名单。
如果你非常幸运得到了 DALL·E 2 名额,记得一定要仔细阅读官方给出的 「政策声明」 ,里面详细说明了 DALL·E 2 及生成图像的使用规范,如 DALL·E 2 生成的图像不可被用于商业用途,生成的图像不能侵犯他人肖像权(包括公众人物),图像发布到网络上时需明确注释是使用人工智能生成的等等。
参考资料:
https://www.lesswrong.com/posts/r99tazGiLgzqFX7ka/playing-with-dall-e-2
https://www.dezeen.com/2022/04/21/openai-dall-e-2-unseen-images-basic-text-technology/
https://80.lv/articles/transforming-images-with-openai-dall-e-2/
https://github.com/openai/dalle-2-preview/blob/main/system-card.md
https://weibo.com/1757693565/Lq4NV6ent?pagetype=profilefeed
-
10秒出图,以假乱真!设计师「用嘴修图」的愿望要成真了?
UI交互 2022-04-29大家好,我是和你们聊设计的花生~ 之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合...大家好,我是和你们聊设计的花生~
之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合作为艺术创作的灵感来源。
堪比艺术家!被疯狂安利的 AI 插画神器 Disco Diffusion 有多强? 大家好,我是和你们聊设计的花生~ 有关注「神器挖掘机」阿文(微博 @Simon_阿文 )的朋友,可能已经了解到他最近正在疯狂安利一款 AI 绘画神器——Disco Diffusion。
阅读文章 >
那如果现在有一款新的 AI 图像工具,它可以根据你给出的「文本提示」,自动合成犹如照片般的真实场景,或者可以根据你给出的文字提示自动修改照片中的某个部分,而且毫无 PS 痕迹,你会怎么看呢?
有关注阿文(微博 @Simon_阿文)的小伙伴可能已经知道,已经有人工智能可以实现上述功能了,而且生成速度极快,图片质量非常高。今天我要和大家介绍的,就是这样一个能根据语言描述,创建逼真的图像和艺术的人工智能系统 —— DALL·E 2 。
DALL·E 2 主要功能 DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统,它不仅可以更根据文本描述生成对应的逼真图像,还可以根据文本提示修改图像内容,以及根据给定的图像拓展生成多种主题风格一致的“变体”。
1. 图像生成功能
我们先来看一组图片:
这些图片是不是看起来非常真实?如同用相机拍出来的一样。但其实,这些图片都是 DALL·E 2 根据给定的文本,通过模型渲染出来的,是完全的虚拟产物。
这就是 DALL·E 2 最主要也是最擅长的功能——根据语句描述创建逼真的图像和艺术。以往我们想得到一个具体的场景,需要通过布景摄影或者绘画来实现,一些具有真实感的奇幻场景更少不了后期合成,而DALL·E 2让这一切都不再复杂。
除了生成逼真的图像,DALL·E 2 也能根据提示生成具有不同艺术风格的图像:
图片来源:DALL·E 2 官方 Instagram
2. 图像修改功能
除了根据文本描述提示生成图像,DALL·E 2 还可以根据给出的提示,修改现有图像。
这种修改包括删除、增加、替换、重塑图片的任意部分,同时考虑阴影、反射和纹理等各方面影响,修改后的图像看不任何修改痕迹。
图片来源:DALL·E 2 官网
之前优设有给大家推荐过智能修图软件,可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼,可以直接添加或替换元素,这对 设计师 来说无疑是提高工作效率的利器。
3秒无痕修图!在线黑科技修图神器 Magic Eraser 大家好,我是和你们聊设计的花生~ 抠图和修图是每个设计师都必须花时间处理的日常工作,它们虽然难度不高,但需要处理的频次不低,所以很多时候我们都会借助智能工具来处理。
阅读文章 >
3. 风格延展功能
DALL·E 2 可以根据一张给定的图片,生成许多与之相关的“变体”。这些“变体”在主题与风格上与原图保持一致,在其他细节方面会自动生成很多变化。
图片来源:DALL·E 2 官网
DALL·E 2 的优点及不足 不同于 Disco Difussion 的 CLIP+generator,DALL·E 2 开发了一种新的文本-图像生成方法,称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图像准确程度还是图像生成速度上,都有了极大地提升。
OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程
1. 极高的图像质量及精准度
在 2021 年 1 月,OpenAI 公司就推出了 DALL·E 1,但那时生成出的图片质量较低,与提示文本的匹配度也只有 71.7%。一年后,新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图像,匹配程度也上升至 88.8%,生成的图像更逼真准确。
图片来源:DALL·E 2 官网
通过深度学习,DALL·E 2 还能如人一样理解两个物体间的关系。
当你输入文本“一只考拉骑着摩托车”时,DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系,然后自动创作相应的图像。
图片来源:DALL·E 2 官网
2. 极快的图像生成速度
平时我们需要找到一张符合主题的图片,少不了要去不同的网站搜索一番;要修改图片的某一部分,也需要手动用图片工具调整,所需的时间都不算少。
而 DALL·E 2 能在或十几秒内,就生成与文本匹配的图像,一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再需要人工一点点去修复,修复质量也更精准自然。
Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频,视频中由文本生成图片只需几秒。
视频地址: https://twitter.com/karenxcheng/status/1513569345049280512
DALL·E 2 的 unCLIP 模型使其生成的图像与文本提示的匹配度非常高,不像 Disco Diffusion 一样会错误理解文本描述,将水印或者把艺术家本人当成关联图像的一部分。
但如果 DALL·E 2 的模型在训练过程中,学习到的图像与其关联标签是错误的,那么最终生成的图像结果就是错误的。比如,训练到的信息是:与图片 「飞机」关联的标签是 「车」,那么其在生成关于「车」的图片时,就会产生包含「飞机」的图片,并不像人一样能主动进行纠错。
另外 DALL·E 2 在生成的多角度真实图像时,也会出现透视比例失真问题。
DALL·E 2 的潜在机遇与风险 DALL·E 2 功能如此强大迷人,想必大家都非常想亲自使用体验。但非常遗憾,DALL·E 2 的程序目前并不对公众开发,我们目前在网上看到的 DALL·E 2 相关信息,都是 DALL·E 2 官网、内部工作人员及少数特邀的相关行业专家发布出来的。
如果想要使用 DALL·E 2,目前唯一的办法就是通过官网申请进入候补名单,等待官方的邀请。
之所以采取这样谨慎的方式,是因为 OpenAI 公司深知 DALL·E 2 强大的图像生成和修改技术一旦开放使用,将会给社会的很多方面带来极大冲击和影响。
从好的方面来说,DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图像来解释抽象的原理或者概念;也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型,并可以随时修改;甚至可以将 DALL·E 2 作为生产工具,成为艺术创作流程的一部分。
推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为主题,生成了 1000 张相关图像,这些图像已经被整理成一本书,分享在 「Internet Archive」 上共所有人免费下载阅读。
但 DALL·E 2 也存在着被滥用的风险,比如用以生成血腥、暴力、露骨、低俗内容;伪造虚假的图像威胁诬告他人;或生成重大事件的虚假图像误导社会舆论等。
为了避免此类问题,DALL·E 2 对系统模型进行了预训练过滤,所有暴力、露骨内容都从其训练数据中删除,以限制 DALL·E 2 生成相关图像的能力。但是这并不能完全杜绝相关内容的出现,一些间接的描述可以绕过 DALL·E 2 的过滤设置。
下图是官方给出的一张示例,我们可以从中感受到人工智能被滥用的可怕后果。
此外,DALL·E 2 也带有一些原生的限制。据官方介绍,DALL·E 2 在默认情况下生成的图像,都以白人和西方文化特征为主,比如涉及到“婚礼”时,会假定是西方婚礼传统,并默认为异性恋夫妇。而且存在一些“刻板印象”:涉及到 CEO,图像都是男性,而涉及到空姐、护士的概念时,形象都是女性等,这些都是 DALL·E 2 目前正在改进并需要不断完善的地方。
总结 DALL·E 2 通过文本提示进行图像生成及修改方面的功能非常强大,可以达到以假乱真的地步。它的出现,无疑会给艺术、营销、设计、研究相关行业带来革命性的改变,但同时也存在被滥用的风险,需要谨慎、有限制性地使用。
DALL·E 2 程序目前没有对社会公众开放,想要体验功能的小伙伴,可以用进入 DALL·E 2 官网: https://openai.com/blog/dall-e/ 申请加入候补者名单。
如果你非常幸运得到了 DALL·E 2 名额,记得一定要仔细阅读官方给出的 「政策声明」 ,里面详细说明了 DALL·E 2 及生成图像的使用规范,如 DALL·E 2 生成的图像不可被用于商业用途,生成的图像不能侵犯他人肖像权(包括公众人物),图像发布到网络上时需明确注释是使用人工智能生成的等等。
参考资料:
https://www.lesswrong.com/posts/r99tazGiLgzqFX7ka/playing-with-dall-e-2
https://www.dezeen.com/2022/04/21/openai-dall-e-2-unseen-images-basic-text-technology/
https://80.lv/articles/transforming-images-with-openai-dall-e-2/
https://github.com/openai/dalle-2-preview/blob/main/system-card.md
https://weibo.com/1757693565/Lq4NV6ent?pagetype=profilefeed
-
大厂案例实战!企业校招官网升级项目总结
UI交互 2022-04-29项目背景 如大家所知,企业的招聘方式基本固定为社招与校招两种,而社招渠道比较宽泛,如多个招聘平台的招聘信息、猎头寻人、人脉内推等,而校招的渠...项目背景 如大家所知,企业的招聘方式基本固定为社招与校招两种,而社招渠道比较宽泛,如多个招聘平台的招聘信息、猎头寻人、人脉内推等,而校招的渠道却比较单向,基本都是在毕业季前,在大学内宣讲、学校内搭建招聘展位等,由于时间较固定且频率不高,所以 58 之前并未搭建校招官网。
来自于《2021 年度企业招聘渠道效果与趋势调研报告》
但是,由大易发布的《2021 年度企业招聘渠道效果与趋势调研报告》指出,相比 2018 年,企业搭建专属招聘官网的比例已经从 41.4%上升到了 80.2%,71.8%的企业建设私域渠道的目的是提升候选人体验,企业开始跳出以「hr 为中心」的视角,转向「以人才为中心」,时时刻刻照顾候选人的应聘体验。所以搭建 58 的校招官网也是势在必行。
两分钟底层法则的应用 英国形象大师罗伯特·庞德曾说,这是一个两分钟的世界,你只有一分钟向人们展示你是谁,还有另外一分钟让他们喜欢你,如何在短暂的时间,屏幕大小的空间里,吸引到与企业志同道合的人,是我们此次升级的设计标准。
1. 静态背景降低动态场景下的焦虑感
我们调研了几个拥有独立校招官网的大厂,信息架构逻辑大体一致,区别较大的就是头屏的展示方式是采用静态还是动态,然而这个也是我们项目内争执比较大的点,依据两分钟底层法则,动态视频的吸引力必定是大于静态的图片,而视频的加载时长的无法控制会很大程度的影响用户体验,现有某个大厂的头屏视频就是很明显的样例,在网络状况不佳的时候,头部的灰色背景带来了焦虑感。怎么弥补用户这几秒的焦虑呢?我们把不可控的几秒变成可控的温馨画面,在视频加载中头屏展示图片,加载完成后开始自动播放视频,这样头部视频的方案得以保留。
2. 极致的交互体验形式
通过竞品分析得知,为了保障信息的连贯性,首页大多都采用平铺的方式展示信息,在某个模块下会通过简单的交互展示更多的信息。虽然设计上模块鲜明,但是对于用户是一次性的信息输入,无法快速集中获取某个模块的信息,所以为了更好的做到信息架构分明,我们首页采用分屏+微动效的交互方式,每屏只向用户展示一个信息,做到沉浸式信息浏览,同时这种方式也在一定程度上提升了品质感,如特斯拉品牌官网也是采用同样的交互方式。
分屏效果展示
二级页面,则采用大图背景样式,内容在固定区域内滑动,增加官网高级感
设计语言定义 每个企业都有一个品牌宣传色,为了保持 58 的企业识别性,我们保留橘色为主色,同时橘色也可以更好地传递企业秉持的温暖的概念。其次,依据 90 后、00 后这些 z 时代背景下的用户喜好,他们更注重品质、时尚,惊喜,内容等,针对这些关键词,我们采用了如下设计方式:
1. 复杂内容视觉化
58 的业务体系是复杂且庞大的,按以前的滑屏的交互方式很难有一个整体且直观的感受,那如何在简化的同时更直观、更整体呢?我们采用了当前流行的 3D 立体方式,打造了 58 的业务矩阵空间,这是个可以无限拓展的空间,对于目标明确的求职者可以快速查看某个品牌的介绍。
2. 加大视觉反差
在福利模块,为了突出福利内容本身,大胆采用灰色背景图片,同时增加不同形状的小面积色块做视觉的调和及内容类型区分。
在成长故事模块 hover 状态下,由原先的彩色照片变为橘色背景与黑白照片搭配,用户的视觉焦点可转为内容本身。点击后的故事详情页采用杂志式的排版,弹窗的样式减少用户的跳出感。
3. 图片增加故事性
为更加深入内容,我们单独拍摄了一套极具故事性的员工形象照,拉近用户与照片中人物的距离,增加用户的沉浸感,照片主要围绕氛围感、接地气、传染力展开拍摄。
4. 标题化文案
经调研点击率高的内容,在标题文案结构上都做了很好的设计,所以文案优化也是我们设计语言的一部分。在标题中准确提炼用户感兴趣的信息,并打造每个故事之间的差异性,从而抓住不同用户的味蕾。
总结 通过 2022 届校招季,我们收集了用户流程下的一些数据,首页-职位列表页-职位详情的 UV 得出流程漏斗下的转化率以及按钮点击转化率,与往年相比有了很大的提升。
最后再提一下英国形象大师罗伯特·庞德的话:两分钟的世界,你只有一分钟向人们展示你是谁,还有另外一分钟让他们喜欢你。然而当下 VR 科技的快速发展及应用,部分大型企业已经在官网首屏采用 VR 技术展示公司及企业文化,未来的可能性还有更多可探索的空间,说不定不久后可以用裸眼 3D 效果,给用户更加趋于真实的感受呢。
大厂实战!vivo官网APP首页改版设计过程复盘 vivo 官网 APP是什么?
阅读文章 >
欢迎关注「58UXD」的微信公众号:
-
从零开始!五个步骤教你做出「上传菜谱」的交互流程与原型设计
UI交互 2022-04-29今天继续给大家讲交互方案的设计思路。 你们会发现其实想做交互设计比 UI 设计难很多,那为什么交互设计比较难呢?因为 UI 设计相当于从 0.5 到 1...今天继续给大家讲交互方案的设计思路。
你们会发现其实想做交互设计比 UI 设计难很多,那为什么交互设计比较难呢?因为 UI 设计相当于从 0.5 到 1,而交互则是从 0 到 1。但并不意味着 UI 就比交互来的层次低,交互注重逻辑,UI 注重对品牌和质感的表现,没有孰优孰劣,但是在入手和执行层面,UI 相对简单一些(我自己也是 UI 出身)。
交互设计也可以说是体验设计的核心。我们需要根据已有的“材料”来进行任务流程、用户行为的设计,以确保用户能高效、满意的完成任务达成目标和解决问题。所以在这整个环节中,要思考的信息和判断的逻辑会更复杂。 交互设计 往往觉得很有成就感的地方在于自己设计的流程或者一些创新的交互能够获得用户的好评以及业务数据的提升,在这个方面 UI 设计的成就感知会来的不够明显,因为视觉表现很难量化,用户也只能通过好不好看来表达,所以 UI 设计师们也希望通过一些方法来找到属于自己的成就感,例如我们也会选择一些平台发表自己的视觉创意来获得同行们的认可等等。
那么今天我们一起来聊一个交互案例,来看看需求从“材料”到具象化表现都需要思考什么。当然,学案例是为了扩充自己的知识面,但是想要真正学会,我们要从底层开始学。
首先来讲一个发布菜谱的功能:一个美食类产品中需要设计一个用户自己创建菜谱的流程,基于这个概念我们可以如何 设计流程 。我们都知道商业设计离不开业务,那么这里我们先不考虑这么多,只考虑如何将流程设计做到最高效,有需要的时候再将业务加入进来。
第一步:来尝试进行一下脑暴 这里和工作中常规的步骤不一样,在工作中我们往往第一步都是去分析这个需求的背景、用户的定位、业务目标什么的,但是这里不用,我们只单纯的做交互方案,所以就不去啰嗦那些了。
在脑暴前,准备好 3 个问题:
1. 什么是菜谱
2. 为什么要发布菜谱
3. 怎么发布菜谱。
通过这 3 个问题我们就可以大致知道这个任务所包含的信息、形式、流程。
1. 什么是菜谱:菜谱是通过图文、视频等方式给用户提供做菜步骤的教学内容
2. 为什么要发布菜谱:希望通过用户自主发布内容的形式来提高整体用户的活跃度以及平台对用户个人品牌的塑造。让用户之间产生更多的互动。
3. 怎么发布菜谱:这里要根据第一个问题脑暴之后再进行流程的设计。
接下来我们根据菜谱这个概念进行拓展:1.菜谱的基本介绍 2.菜谱的制作流程 3.其他支线选项。
在真实工作中其实产品经理会把这个流程要包含的功能和信息点都列举清楚,只是我们现在自己来从 0 到 1 设计一次。
菜谱的基本介绍可以包含菜谱的封面、菜谱的名称、菜谱的简介、难度、时间、食材,菜谱的制作流程可以包含需要的图片、文字描述。但是这里的颗粒度大小不一,例如难度、时间颗粒度小,但是食材我们可以再继续细化拓展:食材的名称、用量。菜谱的其他编辑选项,例如菜肴的口味、菜系的分类,编辑这个选项是有助于其他用户在筛选菜系和分类的时候更快的找到这个菜谱。
第二步:根据信息和内容进行触点分析和控件使用 例如菜谱的封面,那么我们就需要一个容器来上传图片或视频,可以用一个占位图 image 来代替,先不用考虑放什么位置以及在哪个节点,先将每一个信息点都进行控件化。接下来菜谱的名称和简介都是输入模块 text。难度和时间有两种形式:输入和选择,那我们当然用选择,因为操作和理解成本更低,能用选择就不要用输入。选择用什么形式呢?可以用 picker、action sheet 动作面板、展开单选,那哪个更方便高效呢?这里如果需要选择的选项不多,也不需要滚动、联动,那么用 action sheet 就可以了。如果你想让选项更直观更方便操作那么你可以把选项直接放出来。
交互控件科普系列! Sheet 的常见样式和设计注意事项总结 还在频繁地使用弹窗对用户展示重要提示吗?
阅读文章 >
接下来是食材,食材又分为食材的名称和用量,那么也是一个输入的行为,需要两个输入框,这里就不能用选择的交互了,因为在这个场景中选项是根据用户需求随机、特定的,需要用户自己输入。
最后是菜谱制作流程中的图片和文字描述,也是图片和视频的上传和文字输入模块。这样我们就把这些控件具像化了,就更直观的帮助我们进行接下来的操作。
第三步:将控件进行组合以及场景的补全 根据用户的操作习惯和场景,我们将操作顺序捋一遍。什么样的操作顺序更符合我们上传的习惯呢?先填写制作顺序吗?不对,应该先编辑基本信息,也就是我们通过烹饪的流程,先想好要做什么菜,再去准备食材,再开始一系列烹饪的步骤。
所以我们要先让用户去添加封面编辑标题和介绍,烹饪难度和时间其实放在开头和末尾都可以,但是考虑到这些信息在列表中会一起展示,那么我们索性就在开头就直接一起编辑。
接下来是添加食材,添加食材的场景中会涉及到对食材的添加、删除、清空以及智能编辑(类似添加收货地址),所以这里的场景不要漏掉。那有的小伙伴要问是不是可以再加一个拍照识别食材的功能?其实不需要,因为我们在准备做菜谱之前肯定对这道菜有了解,知道每一个食材的名称我们才会去做菜,否则连什么食材都不知道就去做,那万一有毒呢?所以这个场景是不存在的。
再接着是编辑制作步骤,依然是思考用户场景,除了上传图片和文字以外,还需要提供步骤添加、删除、调整位置、批量传图等功能。这些场景我们在脑暴的时候或多或少会遗漏掉。
第四步:制定步骤和流程 移动端产品的层级和路径主要是根据页面来划定的,所以页面越多路径就越深,但是路径深并不意味着一定就多余,路径少也并不意味着操作就简单。路径阶段的划分主要是根据这几点来考虑的:
1. 当前页面内容是否溢出、符合场景、满足预期也就是说当前页面中的内容是否符合当前场景的用户,以及是不是过载了。例如我们去购买电影票的流程,当我们在查看电影详情的时候,不会出现电影院和电影场次的选择,因为不符合当前场景的用户需求。
2. 场景是否独立我们在选择回收自己的手机时,在选择型号页面不会再让用户编辑估价信息。这个场景是独立的,并且只有完成了前置操作步骤后才能进行下一步。
3. 任务是否需要阶段性结束,为什么需要进行新建界面,是因为当前界面在满足 1 和 2 两个约束后,要考虑第一个步骤是否阶段性完结了,例如我如果把菜谱编辑基础信息界面单独做一个界面,而编辑步骤再单独做一个界面,这里第一界面是否阶段性完结呢?还没有,因为你可以随时要去修改标题、封面、食材等等,而经常返回上一页并不是一件很简单的事,用户也会担心我编辑好的步骤会不会保存等一系列问题。
这里再用一个蔚来 app 中选购车辆配置的流程举个例子。他这里也将选择配置流程划分成了几个界面,但这个流程结构就不是单纯的线性结构了,虽然他每个不同的配置单独做成一个界面但是顶部利用 tab 来切换不同配置选项的界面。
所以当任务需要阶段性完成时候,例如只有先输入手机号点击发送验证码之后才能收到验证码,在这样的流程中我们可以使用下一步来进入下一个环节。如果要分不同的界面,而又没有出现阶段性完结的情况,那么前一页的内容编辑再下一页也需要有,例如我们把标题编辑单独做一个界面,但是下一个编辑基本信息界面也依然要能够编辑标题。
第五步:设计原型和布局 通过对用户场景和触点的分类,以及对第四步的思考,我们可以发现其实编辑基本信息和编辑步骤是需要放在同一个页面中去完成的,因为没有阶段性结束。但是放在同一个界面也有一些问题比如单个界面需要编辑的信息太多,比较繁琐,再次编辑需要上下滑动浏览不方便等问题。所以我们也可以看一下市面上的竞品都是怎么做的,有一些产品会将编辑标题单独划分出一个界面,这其实没改变前者的问题,单独作为一个页面或许是基于这两点考虑:
1. 希望用户通过认真对待标题来提高菜谱的点击率和引起别人的兴趣
2. 业务需求,通过让用户了解优质内容的协议来谨慎对待上传菜谱的质量
3. 对于一个复杂操作前的一个准备和引导,让用户更容易接受接下来的大量表单的填写。
接下来是填写的界面,那么我们就可以根据信息展示的优先级和第三步设定好的控件进行布局,这里涉及到的原理就不讲了。我们主要来分析一下某些功能在布局的时候为什么这么放。
首先封面和标题还有简介从上至下应该没有什么问题,因为有两个输入模块咱就无法左右放,因为这 3 者是强关联信息所以是一个整体。其次是难度和时间,这两个字段包含的内容和形式我们在之前的步骤中提到有两种形式,一种是 actionsheet 还有一种是选项标签化平铺,前者的好处是节省空间,易扩展,后者则更加直观和方便选择,另外也要考虑类似控件在整个产品中的统一性。
接下来是食材添加和编辑,这里涉及到食材名称和用量的文本输入,这里可以直接用一行输入模块来放单个食材的编辑,因为整个页面表单很长所以尽量简化上下空间。同时还有对食材的删除、清空、调序和新增。那这三个按钮怎么放比较合理呢?我们要看用户使用的场景,可以考虑的维度有:操作频率、操作优先级以及任务的主方向。
所以在食材编辑这个模块中,最高频的是新增其次是删除,再次是调序最后是清空。而当食材新增后内容会向下延伸,所以新增的按钮不适合放在上方,也不适合放在每个输入模块的右侧。删除和调序则是最某个食材信息的编辑所以是针对单个输入模块的,那必须跟在后面。最后的清空可以放在新增按钮的左侧。这样就完成了添加食材的模块。
再接下来是烹饪步骤。上传图片和编辑文本没什么问题,上下布局是因为在正式浏览的时候需要大图和文字搭配的形式,所以为了形式统一就只能这样布局。
目前调整步骤在最底部,同时删除操作也需要点击调整步骤后才能出现,这里因为调整步骤和删除不是高频操作,弱化层级可以理解,但是如果放在底部,那么如果我想要删除第一步和调整前 2 步顺序的时候,就要上下来回滑动,不是很方便。
那其实我们可以这么做,把烹饪步骤作为一个 bar,在页面向上滑动的时候置顶,添加食材也可以这样操作。就是为了让用户在上下滑动的时候可以随时进行一个编辑,步骤在任何位置都可以直接进行换位和删除。另外由于是大图模式,在换位的时候进行长按拖动其实对拇指的操作有一定的要求。既然这样为什么不用上下切换的按钮进行调序。
我们来看一下拇指拖动要激活两个阶段,首先要长按激活拖动,然后需要按住不放进行拖拽,由于卡片面积较大拇指滑动的距离就要长,对于手小的用户就不太方便了。那我们是否可以做成一个上下切换的按钮,这样只要通过单击就可以完成顺序的调换,并且通常调换顺序并不需要跨越多个步骤进行,一般也只是相邻两个步骤的顺序换一下即可。所以这里首先我会把编辑按钮和批量传图都放在烹饪步骤 bar 右侧并置顶。
最后再补上剩余的选项模块和发布、预览、草稿的按钮即可。预览和草稿必须放在导航栏,因为这俩功能是随时需要进行操作的所以不能在页面底部,而发布按钮可以放在最底下。也有小伙伴想问,为什么不在底部做一个固定的 bar 来放这些按钮呢。因为页面纵向信息很复杂,不仅底部占用了高度也容易误操作,在没有编辑完时,发布按钮还是比较鸡肋的,所以是不会出现一个底部固定的 bar。
好啦,今天分享的交互流程案例大家学废了吗?我们下期再见,有更多想法和交流欢迎在留言区留言!
为什么你的交互方案过不了?大厂高手教你这 4 个方法! 本周特邀前百度资深交互设计师薏薏来讲讲自己从交互小白一路升级打怪的过程,薏薏从纯理科转行设计,从 C 端近年转行 B 端,求职、工作中踩过不少坑,今天将分享其中的一部分心得体会。
阅读文章 >
欢迎关注作者的微信公众号:「应谋鬼计」
-
拖到 Deadline 才画图?腾讯高手从 3 个角度帮你提高工作效率!
UI交互 2022-04-29前言 相信大多数人无论在学习还是工作中都或多或少遇到过一些效率低下的情景: 永远有画不完的图、开不完的会,自己的精力又十分有限,十分焦虑事...前言 相信大多数人无论在学习还是工作中都或多或少遇到过一些效率低下的情景:
永远有画不完的图、开不完的会,自己的精力又十分有限,十分焦虑事情做不完怎么办
明明有很多事情要做,却无法集中注意力,不断切换处理不同的事情,时间和精力在大量内耗中被消耗掉,实际的输出效率十分低下
要做的事情越多拖延症越严重,面对繁多的任务不知如何下手,时间快速流逝,临近 deadline 的时候突然发现什么都没做
设计资产繁多且混乱,想要找到某个东西的时候总是想不起在哪里
……
所有的这些,都会大大影响学习工作的效率,那么该怎样才能更高的效率处理这些问题呢?
本文会从动力、规划和专注三个角度来破解这个难题。首先,万事的开头一定需要有一个内在的动力作为驱动,在有了动力之后还要对自己做的事情有详细的规划,做到有的放矢,最后,在落地执行的阶段要保持专注。
效率来源于动力 相信你一定有过“通宵达旦、乐此不疲”的愉快经历,比如一整晚打游戏上了十颗星、或者连续十个小时刷完了一部五十集的电视剧;当然也一定有过“心不在焉、味如嚼蜡”的痛苦经历,比如小时候被妈妈强迫练习钢琴时数着时间期待结束、或者在期末考试前夕为了不挂科被迫复习一上午才看了五页书。我们会发现,同样是长时间做一件事,当我们内在动力不同时,效率高低实是天壤之别。那么我们该如何获取工作的动力呢?
1. 自主选择
有研究表明,人类对掌控力的需求是一种生理需求,在面对选择时做决定可以直接证明自己拥有掌控力,并且极大的提升执行效率。人们渴望拥有选择的自由——哪怕所做的决定并不会带来任何好处。
回顾前文提到的例子,无论是通宵打游戏还是连续十个小时刷完一部剧,自己拥有绝对的选择权,因此可以连续长时间保持一种十分高效的状态;而练习钢琴是在妈妈的强迫下做的、复习专业课是快要考试了,为了不挂科而在自己的强迫下做的,在这些事情上,自己的选择权都比较弱,于是效率往往比较低下,且可持续的时间也较短。由此可见,“拥有选择权并能自主做出决定”是获得动力的第一步。在工作中,我们就可以通过“把握选择权并做决定”的方式来获取工作动力。
在我工作初期,为了避免反复修改设计稿,我曾经习惯于在做项目时输出多个方案,把能想到的方案全部罗列出来,并让更具有经验的前辈以及其他项目相关人帮助我来决定哪个方案才是最优解。诚然,对于一个新手来说,这样可以最大限度的减少出错,保证输出方案的质量。但一段时间后,我开始逐渐丧失输出方案的动力,因为我感觉输出多方案只是为了给决策人——而不是自己——提供多个选择而已。因此我输出方案的效率开始直线下滑,有时甚至会卡在“只有两个方案不够选”这样的问题上,为此自己也时常陷入苦恼之中。
破解这个局面的灵感是在一次与前辈的交流中获得的。我开始尝试自己去做设计决策,自己从多个方案中选择自己认为最好的方案。于是,输出多方案这件事就从“给别人提供选项”变成了“帮自己推敲设计”,我也不再单纯为了“多个选项”输出多方案,而是在不断思考“当前的方案有什么问题,还能怎么去解决”的过程中输出更多的方案。这样的改变让我重新找到了设计的动力,思考更加主动、效率也得到了极大的提高。
2. 学会放弃
虽然通过“做决定”可以获取动力,但这并不意味着我们可以无脑“做决定”,向错误的方向走出一百步还不如停在原地不动。我们要尽量保证做的每个决定都是有意义的。
为了做到这一点,可以尝试着在做每个决定的时候多问自己几次为什么,从而找到其背后的原因,同时也可以找到做决策的依据。
当我还在上学时,发现有些“学神”的日常表现与普通人并无二致,他们有时也会逃课、也会不写作业,考试前也未见他们悬梁刺股,但是每次考试成绩却名列前茅。很多年后,我有幸认识了一位这样的“学神”朋友,姑且称其为 A 君,在与他交流后,才解开了我心中的疑惑。A 君给我讲了一个秘诀——学会放弃。
在 A 君的心中,没有什么事情是不可以放弃的,包括上课、听讲、写作业、刷题,这些看起来都是获得好成绩必须要做的事情,其实都可以放弃。问题在于,如何选择该放弃哪些事情。A 君的做法是,当有一件事情需要去做时,首先会问自己一个问题——为什么要做这件事?
比如,第二天有一节课要上,这时就要先问自己,为什么要上课呢?答案是因为上课可以从老师那里学到新的知识点。但是,获取新的知识点并不一定只能通过上课的形式,也可以通过看书、在网上找一些资料、甚至找其他前辈请教。那么问题就变成了“通过哪种形式掌握新知识点更加省时省力?”
A 君说在他上学时,每个学期都会去买一本教师版的教材,上面会有一套比较完整的教案,他在预习时会先看一遍教案,如果自己能够掌握所有的知识点,那么第二天的课就会选择放弃。这就是为什么虽然他逃课了,但是还能取得好成绩的原因。有得就有失,有时有计划的放弃反而会提高整体效率。
效率来源于规划 只拥有动力还不足以让 工作效率 有质的提升,我们还需要对工作内容进行合理的规划,让工作变得井井有条。在开始工作之前先做一份工作计划,可以让工作的执行事半功倍。
为了更好的制定工作规划,我会把长期的目标规划的更加系统,而把短期的规划尽量做到碎片化。
1. 长期规划——让目标变得smart
美国管理学大师德鲁克于 20 世纪 50 年代提出 smart 原则,在制定和考核绩效时须符合五项原则:具体的(Specific)、可衡量的(Measurable)、可达到的(Attainable)、与其他目标具有相关性的(Relevant)、具有明确的截止期限(Time-bound)。
在进行长期目标的规划时,也可以参考这样的原则,让每个目标变得更加清晰。
例如“提升产品的用户体验”可以是一个目标,但是不是一个好的目标,因为其不够具体、不易衡量、不易达到且不具有明确的截止期限。
针对“不具体”的问题,我们可以对其进行一些更具体的拆分,例如“优化触区大小”、“优化转场动画”、“提供更加情感化的空页面插图”都可以成为具体的目标。
针对“不可衡量”的问题,可以给目标添加上一些可量化的指标,例如“优化产品的 5 个一级页面中的触区大小”、“优化所有一级页面向二级页面跳转的转场动画”、“提供常见的 10 种空页面场景的情感化插图”。
在确定目标-拆解目标的过程中,还要时刻注意目标的是否是可达成的。例如“优化产品中全部触区大小”这个目标,在不同的产品中工作量也是有着巨大差异的,如果优化对象是 QQ 这种体量庞大的产品,牵扯到的页面和业务团队甚至无法穷尽,“优化全部页面的触区大小”就是一个不可达成的任务,此时,我们就可以将目标修改为“优化全部一级页面的触区大小”,让目标变得具有可达成性。
制定任务时,应该给任务设定一个截止期限,例如“一个月内优化全部一级页面的触区大小”,这里的“截止期限”实际上不一定是“完成期限”,而是一个回顾的时间点。到了截止期限,我们应该回顾该任务的完成情况,并对其进行进一步的处理,已完成的任务可以进行复盘、归档;未完成的任务可以进行进一步的规划。
2. 短期规划——日程计划or任务池
所有的长期目标都要依赖每日的具体执行才能得以实现,所以每日的日程规划也显得尤为重要。然而并不是制定一个日程规划表就一定可以按部就班的完成任务。相信绝大多数人应该都遇到过这样的情况,早上开始工作之前认认真真地制定了一份工作计划,精确到了每个小时需要完成什么样的工作,但是可能会因为各种各样的原因——临时加入的高优需求、临时的会议亦或同事向你咨询了几个问题——打乱了整个工作计划,到了晚上发现,规划好的事情只完成了一半。
变化总比计划快,我们永远无法精确预判意外情况会消耗掉我们多少时间和精力。因此,与其做一份十分详尽的时间规划,倒不如建立一个任务池。
todo 列表就是一个天然的任务池,把需要完成的事情记录下来,不要指定具体的完成期限,而是归类并标注优先级(可以参考前文阐述的 ROI 管理模式),尽量摆脱以时间为衡量尺度的任务规划方式,从而避免单纯因为赶 deadline 而优先完成 ROI 过低或者价值较低的任务,导致更加具有价值的任务被迫延期。每次规划仅聚焦于任务池中最需要完成的一两个任务,不必过分追求一个完整的计划表。当完成当前规划的任务后,再从任务池中找出需要继续完成的任务。
“写 todo 列表”这件事也不必是一个固定日程,可以利用碎片化时间进行记录和整理,例如上班通勤的路上、完成一项任务后的短暂休息时间、在食堂排队的时间等等。
总之,尽量降低“日程规划”这件事的形式化,随时随地管理自己的任务池,用极致碎片化的方式来管理任务池,可以让短期规划这件事情变得更加灵活且高效。
效率来源于专注 在衡量工作效率时,我们讨论的不只是对某一件事情的专注度,而是整个工作过程中的“综合专注度”。例如我们可能在攻克一个难点时十分专注,但是中途又被打断去快速处理了一些其他琐碎事物,然后再次回到之前的攻克难点的任务中。如果从单个任务的视角来看,无论是攻克难点的任务、还是处理琐碎事物,可能都保持了高度专注的状态,但是如果考虑到在多个任务中间来回切换而产生的内耗时,整体的效率并不见得很高,这种情况下“综合专注度”就不算高了。
为了尽量提升“综合专注度”,我把日常任务分成三种类型:疑难型任务、紧急型任务和琐碎任务。三种任务需要的专注度不同,处理方式也不同。
1. 疑难任务 我把工作量大且需要高密度思考的任务归类为“疑难任务”。这类任务需要注意力高度集中,且需要大块时间集中处理。
例如“以提升发布效率为目标重构整个发布编辑流程”就是一个疑难任务,该任务涉及到大量竞品的调研分析、超过十个页面的设计、繁多的交互分支路径的遍历。
面对这类任务,最好的解决办法就是进入心流模式,利用整块的时间集中攻克。心流是心理学中的一个概念,指一种将个人精神力完全投注在某种活动上时所表现的心理状态,在这种状态下,可以获得最高的工作效率,但是通常这种状态下会呈现出一种抗拒中断的特性,只能专心处理某一项任务。因此心流状态十分适合用来处理疑难任务。
为了进入心流状态,首先需要创造一个舒适的工作环境,包括但不限于一个舒适的工作姿势(如一套舒适的桌椅和随手可得的办公工具)、不易被干扰的环境(如带上一副降噪耳机并把手机调到勿扰模式)等等,总之就是尽量减少被打断心流状态的可能。
不必强求自己一步进入新流状态,实际上也鲜有人可以做到这点,我们可以按照思考密度从低到高的方式来安排工作流程,让自己渐入佳境。在开始解决真正疑难的核心任务前,不妨做一些周边工作作为热身,例如遍历市面上的相关竞品,并一一截图,这并不需要太多复杂的思考,但是却可以帮助自己进入工作状态。在完成竞品的遍历后,就可以顺理成章的开始进行竞品的比对和分析,再过渡到设计方案的输出。“遍历竞品-分析竞品-输出方案”就是一个思考密度和专注程度逐步递增的过程,这样的工作流程会更加容易进入心流状态,并高效的解决疑难问题。
2. 紧急任务 工作里经常会遇到一类任务,提出的比较临时,例如老板提出的紧急需求、线上出现的严重 bug 或重大舆情等。这类任务往往重要性很高,需要在极短时间内响应,因此对于“综合专注度”会产生负向影响,我把这类任务归类为“紧急任务”。
紧急任务往往会让人手足无措,这是因为当人从比较放松的状态突然进入到紧张状态时,注意力往往会本能的聚焦于某个最明显的事物或者平日养成的习惯中。例如在高速公路上正常行驶时,突然遇到前车紧急刹车,很多新手司机会出于本能的把刹车踏板踩到底并猛打方向避让前车,虽然这样的选择并不明智,但是人们会本能的把注意力聚焦在“减速、躲避”这件最为明显的任务上。
如果是一位驾驶经验丰富的老司机在同样的紧急情况下,可能就会采取更优的处理方式——点刹、扶稳方向盘、尽量降低撞击伤害。这是因为他对于“前车急刹车”这样的紧急状况有充分的心理预案,所以遇到紧急情况的时候才不会手忙脚乱。同理,在工作中要想高效的处理紧急任务,最好的办法就是“有备无患”,把工作做在平时,在紧急情况出现时,可以用最快的速度做出最优的应对,从而尽量减少紧急情况对综合专注度的影响。
我们可以通过预测/预想的方式,来提前做好准备,避免紧急情况出现时的手足无措。例如当我们做汇报方案/晋升答辩时,可以根据已有经验提前预想对方会挑战哪些问题,并思考该如何回答;做设计方案时,提前思考设计方案的优缺点以及上线后可能会遇到哪些问题,并做好预案。
另外可以通过复盘已经出现过的紧急任务来总结经验,以备日后之需。我曾经遇到过一个十分临时的老板需求,要求在一个现有的页面基础上用十分钟快速做一些微调。但是我在处理这个任务的时候遇到了一个问题——一时间脑子一片空白,完全想不起这个页面的源文件在哪里,最终只好重新画了一整个页面,本来十分钟就可以完成的任务,实际上花费了半个小时才做完。在这件事情之后,我与其他同事一起,把负责项目的核心页面源文件进行了一次归档,日后再次遇到类似的问题,就可以十分高效的找到想要的源文件了。
3. 琐碎任务 工作中还会有大量的琐碎任务,这类任务复杂程度不高,工作量也不算大,也不是非常紧急,但是数量和种类繁多,互相之间又不耦合,我在处理这类任务时有三板斧:记录和归档、统筹规划、集中处理。
记录和归档
好记性不如烂笔头,为避免遗忘,遇到需要处理的琐碎任务一定要及时记录下来,这也会成为任务池的重要组成部分。
最好选择一个可以多端协同的工具进行记录,确保自己在任何环境中都可以记录和整理。我日常会使用 notion 进行事项记录和规划。除了优秀的多端协作体验以外,notion 还有一个重要优点是可以用“面向对象”的方式进行数据整理。例如我会建立“相关人员”、“版本节奏”等等数据库,这些数据库可以独立管理和维护,而在需求管理时,可以在其中直接调用“相关人员”的数据来标注负责该需求的产品、设计师、开发等人员,也可以调用“版本节奏”来快速标注当前需求的时间节点信息,并且各个数据库中的数据也是实时联动和更新的。
从任务管理模式到 ROI 管理模式
有一种比较常见的一种工作模式——逐项完成手头的任务,这样的工作模式以任务本身为管理对象,因此我把它称为“任务管理模式”。但是在工作中,相比于海量的任务,无论是个人的时间精力还是团队的人力资源都会显得捉襟见肘,有时面对繁多的任务甚至会无从下手,这时就会出现一个棘手的问题——该如何进行工作任务的取舍?
在商业领域,有一个名词叫做 ROI(Return on Investment),是指回报与投入的比值,直接反映了综合盈利能力。在日常工作和生活中,也可以引申这样的概念,通过一项任务的产出与投入的比值来衡量该任务的价值。
前文中提到的学神 A 君在获取知识点时,是选择听课还是自学,其根本的决策依据就是 ROI。如果知识点简单,自学即可完全掌握时,听课就显得耗时耗力,ROI 较低,此时就选择逃课自学;反之如果知识点比较难,自学起来比上课还要更加耗时耗力,那么此时上课的 ROI 就更高,肯定要选择上课。
这种工作方式有两个步骤:第一步是分析每项任务背后的价值点,并以此为依据对多项任务进行归类;第二步是根据 ROI 进行优先级的排序,然后做出取舍。这种以 ROI 为核心管理对象的工作方式,我称之为“ROI 管理模式”。
在处理琐碎任务时,我们要有意识的从单纯的任务管理模式转向 ROI 管理模式。这就要求我们去思考每件事情背后的价值,并且把目光放在长期的收益上,而不是只关注短期收益。优先选择 ROI 高的任务,放弃 ROI 低的任务。
集中处理
每天单独规划一段时间用来集中处理琐碎任务,这样既可以保证琐碎任务有持续不断的被处理掉,又可以尽量减少频繁任务切换造成的内耗。我比较习惯于在早上以及下午开始工作之前的半个小时处理琐碎任务,恰好可以作为开始工作的热身活动。
把日常的任务按照“疑难任务”、“紧急任务”、“琐碎任务”进行分类是我自己在工作中常常使用的分类方式,实际的分类方式也可能会因人而异,但是不变的核心思路是合理安排各项任务,最大限度的提升“综合专注度”,从而获得更高的工作效率。
结语 本文从动力、规划、专注三个方面探讨了一些提升 设计效率 的思路,实际上提升效率的手段不仅局限于本文讨论的范围,每个人面对的问题和状况都不尽相同,可以根据自己的实际情况总结出自己的“提效套路”,希望每位读到这里的读者都能有所收获。
效率翻倍!24 个腾讯高手的私藏设计工具 工欲善其事,必先利其器。
阅读文章 >
欢迎关注作者微信公众号:「腾讯ISUX」
-
10秒出图,以假乱真!设计师「用嘴修图」的愿望要成真了?
UI交互 2022-04-29大家好,我是和你们聊设计的花生~ 之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合...大家好,我是和你们聊设计的花生~
之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合作为艺术创作的灵感来源。
堪比艺术家!被疯狂安利的 AI 插画神器 Disco Diffusion 有多强? 大家好,我是和你们聊设计的花生~ 有关注「神器挖掘机」阿文(微博 @Simon_阿文 )的朋友,可能已经了解到他最近正在疯狂安利一款 AI 绘画神器——Disco Diffusion。
阅读文章 >
那如果现在有一款新的 AI 图像工具,它可以根据你给出的「文本提示」,自动合成犹如照片般的真实场景,或者可以根据你给出的文字提示自动修改照片中的某个部分,而且毫无 PS 痕迹,你会怎么看呢?
有关注阿文(微博 @Simon_阿文)的小伙伴可能已经知道,已经有人工智能可以实现上述功能了,而且生成速度极快,图片质量非常高。今天我要和大家介绍的,就是这样一个能根据语言描述,创建逼真的图像和艺术的人工智能系统 —— DALL·E 2 。
DALL·E 2 主要功能 DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统,它不仅可以更根据文本描述生成对应的逼真图像,还可以根据文本提示修改图像内容,以及根据给定的图像拓展生成多种主题风格一致的“变体”。
1. 图像生成功能
我们先来看一组图片:
这些图片是不是看起来非常真实?如同用相机拍出来的一样。但其实,这些图片都是 DALL·E 2 根据给定的文本,通过模型渲染出来的,是完全的虚拟产物。
这就是 DALL·E 2 最主要也是最擅长的功能——根据语句描述创建逼真的图像和艺术。以往我们想得到一个具体的场景,需要通过布景摄影或者绘画来实现,一些具有真实感的奇幻场景更少不了后期合成,而DALL·E 2让这一切都不再复杂。
除了生成逼真的图像,DALL·E 2 也能根据提示生成具有不同艺术风格的图像:
图片来源:DALL·E 2 官方 Instagram
2. 图像修改功能
除了根据文本描述提示生成图像,DALL·E 2 还可以根据给出的提示,修改现有图像。
这种修改包括删除、增加、替换、重塑图片的任意部分,同时考虑阴影、反射和纹理等各方面影响,修改后的图像看不任何修改痕迹。
图片来源:DALL·E 2 官网
之前优设有给大家推荐过智能修图软件,可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼,可以直接添加或替换元素,这对 设计师 来说无疑是提高工作效率的利器。
3秒无痕修图!在线黑科技修图神器 Magic Eraser 大家好,我是和你们聊设计的花生~ 抠图和修图是每个设计师都必须花时间处理的日常工作,它们虽然难度不高,但需要处理的频次不低,所以很多时候我们都会借助智能工具来处理。
阅读文章 >
3. 风格延展功能
DALL·E 2 可以根据一张给定的图片,生成许多与之相关的“变体”。这些“变体”在主题与风格上与原图保持一致,在其他细节方面会自动生成很多变化。
图片来源:DALL·E 2 官网
DALL·E 2 的优点及不足 不同于 Disco Difussion 的 CLIP+generator,DALL·E 2 开发了一种新的文本-图像生成方法,称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图像准确程度还是图像生成速度上,都有了极大地提升。
OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程
1. 极高的图像质量及精准度
在 2021 年 1 月,OpenAI 公司就推出了 DALL·E 1,但那时生成出的图片质量较低,与提示文本的匹配度也只有 71.7%。一年后,新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图像,匹配程度也上升至 88.8%,生成的图像更逼真准确。
图片来源:DALL·E 2 官网
通过深度学习,DALL·E 2 还能如人一样理解两个物体间的关系。
当你输入文本“一只考拉骑着摩托车”时,DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系,然后自动创作相应的图像。
图片来源:DALL·E 2 官网
2. 极快的图像生成速度
平时我们需要找到一张符合主题的图片,少不了要去不同的网站搜索一番;要修改图片的某一部分,也需要手动用图片工具调整,所需的时间都不算少。
而 DALL·E 2 能在或十几秒内,就生成与文本匹配的图像,一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再需要人工一点点去修复,修复质量也更精准自然。
Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频,视频中由文本生成图片只需几秒。
视频地址: https://twitter.com/karenxcheng/status/1513569345049280512
DALL·E 2 的 unCLIP 模型使其生成的图像与文本提示的匹配度非常高,不像 Disco Diffusion 一样会错误理解文本描述,将水印或者把艺术家本人当成关联图像的一部分。
但如果 DALL·E 2 的模型在训练过程中,学习到的图像与其关联标签是错误的,那么最终生成的图像结果就是错误的。比如,训练到的信息是:与图片 「飞机」关联的标签是 「车」,那么其在生成关于「车」的图片时,就会产生包含「飞机」的图片,并不像人一样能主动进行纠错。
另外 DALL·E 2 在生成的多角度真实图像时,也会出现透视比例失真问题。
DALL·E 2 的潜在机遇与风险 DALL·E 2 功能如此强大迷人,想必大家都非常想亲自使用体验。但非常遗憾,DALL·E 2 的程序目前并不对公众开发,我们目前在网上看到的 DALL·E 2 相关信息,都是 DALL·E 2 官网、内部工作人员及少数特邀的相关行业专家发布出来的。
如果想要使用 DALL·E 2,目前唯一的办法就是通过官网申请进入候补名单,等待官方的邀请。
之所以采取这样谨慎的方式,是因为 OpenAI 公司深知 DALL·E 2 强大的图像生成和修改技术一旦开放使用,将会给社会的很多方面带来极大冲击和影响。
从好的方面来说,DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图像来解释抽象的原理或者概念;也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型,并可以随时修改;甚至可以将 DALL·E 2 作为生产工具,成为艺术创作流程的一部分。
推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为主题,生成了 1000 张相关图像,这些图像已经被整理成一本书,分享在 「Internet Archive」 上共所有人免费下载阅读。
但 DALL·E 2 也存在着被滥用的风险,比如用以生成血腥、暴力、露骨、低俗内容;伪造虚假的图像威胁诬告他人;或生成重大事件的虚假图像误导社会舆论等。
为了避免此类问题,DALL·E 2 对系统模型进行了预训练过滤,所有暴力、露骨内容都从其训练数据中删除,以限制 DALL·E 2 生成相关图像的能力。但是这并不能完全杜绝相关内容的出现,一些间接的描述可以绕过 DALL·E 2 的过滤设置。
下图是官方给出的一张示例,我们可以从中感受到人工智能被滥用的可怕后果。
此外,DALL·E 2 也带有一些原生的限制。据官方介绍,DALL·E 2 在默认情况下生成的图像,都以白人和西方文化特征为主,比如涉及到“婚礼”时,会假定是西方婚礼传统,并默认为异性恋夫妇。而且存在一些“刻板印象”:涉及到 CEO,图像都是男性,而涉及到空姐、护士的概念时,形象都是女性等,这些都是 DALL·E 2 目前正在改进并需要不断完善的地方。
总结 DALL·E 2 通过文本提示进行图像生成及修改方面的功能非常强大,可以达到以假乱真的地步。它的出现,无疑会给艺术、营销、设计、研究相关行业带来革命性的改变,但同时也存在被滥用的风险,需要谨慎、有限制性地使用。
DALL·E 2 程序目前没有对社会公众开放,想要体验功能的小伙伴,可以用进入 DALL·E 2 官网: https://openai.com/blog/dall-e/ 申请加入候补者名单。
如果你非常幸运得到了 DALL·E 2 名额,记得一定要仔细阅读官方给出的 「政策声明」 ,里面详细说明了 DALL·E 2 及生成图像的使用规范,如 DALL·E 2 生成的图像不可被用于商业用途,生成的图像不能侵犯他人肖像权(包括公众人物),图像发布到网络上时需明确注释是使用人工智能生成的等等。
参考资料:
https://www.lesswrong.com/posts/r99tazGiLgzqFX7ka/playing-with-dall-e-2
https://www.dezeen.com/2022/04/21/openai-dall-e-2-unseen-images-basic-text-technology/
https://80.lv/articles/transforming-images-with-openai-dall-e-2/
https://github.com/openai/dalle-2-preview/blob/main/system-card.md
https://weibo.com/1757693565/Lq4NV6ent?pagetype=profilefeed
-
10秒出图,以假乱真!设计师「用嘴修图」的愿望要成真了?
UI交互 2022-04-29大家好,我是和你们聊设计的花生~ 之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合...大家好,我是和你们聊设计的花生~
之前给大家推荐了 AI 图画生成器 Disco Difussion,它可以根据文本提示自动生成恢弘奇幻的艺术,非常适合作为艺术创作的灵感来源。
堪比艺术家!被疯狂安利的 AI 插画神器 Disco Diffusion 有多强? 大家好,我是和你们聊设计的花生~ 有关注「神器挖掘机」阿文(微博 @Simon_阿文 )的朋友,可能已经了解到他最近正在疯狂安利一款 AI 绘画神器——Disco Diffusion。
阅读文章 >
那如果现在有一款新的 AI 图像工具,它可以根据你给出的「文本提示」,自动合成犹如照片般的真实场景,或者可以根据你给出的文字提示自动修改照片中的某个部分,而且毫无 PS 痕迹,你会怎么看呢?
有关注阿文(微博 @Simon_阿文)的小伙伴可能已经知道,已经有人工智能可以实现上述功能了,而且生成速度极快,图片质量非常高。今天我要和大家介绍的,就是这样一个能根据语言描述,创建逼真的图像和艺术的人工智能系统 —— DALL·E 2 。
DALL·E 2 主要功能 DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统,它不仅可以更根据文本描述生成对应的逼真图像,还可以根据文本提示修改图像内容,以及根据给定的图像拓展生成多种主题风格一致的“变体”。
1. 图像生成功能
我们先来看一组图片:
这些图片是不是看起来非常真实?如同用相机拍出来的一样。但其实,这些图片都是 DALL·E 2 根据给定的文本,通过模型渲染出来的,是完全的虚拟产物。
这就是 DALL·E 2 最主要也是最擅长的功能——根据语句描述创建逼真的图像和艺术。以往我们想得到一个具体的场景,需要通过布景摄影或者绘画来实现,一些具有真实感的奇幻场景更少不了后期合成,而DALL·E 2让这一切都不再复杂。
除了生成逼真的图像,DALL·E 2 也能根据提示生成具有不同艺术风格的图像:
图片来源:DALL·E 2 官方 Instagram
2. 图像修改功能
除了根据文本描述提示生成图像,DALL·E 2 还可以根据给出的提示,修改现有图像。
这种修改包括删除、增加、替换、重塑图片的任意部分,同时考虑阴影、反射和纹理等各方面影响,修改后的图像看不任何修改痕迹。
图片来源:DALL·E 2 官网
之前优设有给大家推荐过智能修图软件,可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼,可以直接添加或替换元素,这对 设计师 来说无疑是提高工作效率的利器。
3秒无痕修图!在线黑科技修图神器 Magic Eraser 大家好,我是和你们聊设计的花生~ 抠图和修图是每个设计师都必须花时间处理的日常工作,它们虽然难度不高,但需要处理的频次不低,所以很多时候我们都会借助智能工具来处理。
阅读文章 >
3. 风格延展功能
DALL·E 2 可以根据一张给定的图片,生成许多与之相关的“变体”。这些“变体”在主题与风格上与原图保持一致,在其他细节方面会自动生成很多变化。
图片来源:DALL·E 2 官网
DALL·E 2 的优点及不足 不同于 Disco Difussion 的 CLIP+generator,DALL·E 2 开发了一种新的文本-图像生成方法,称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图像准确程度还是图像生成速度上,都有了极大地提升。
OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程
1. 极高的图像质量及精准度
在 2021 年 1 月,OpenAI 公司就推出了 DALL·E 1,但那时生成出的图片质量较低,与提示文本的匹配度也只有 71.7%。一年后,新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图像,匹配程度也上升至 88.8%,生成的图像更逼真准确。
图片来源:DALL·E 2 官网
通过深度学习,DALL·E 2 还能如人一样理解两个物体间的关系。
当你输入文本“一只考拉骑着摩托车”时,DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系,然后自动创作相应的图像。
图片来源:DALL·E 2 官网
2. 极快的图像生成速度
平时我们需要找到一张符合主题的图片,少不了要去不同的网站搜索一番;要修改图片的某一部分,也需要手动用图片工具调整,所需的时间都不算少。
而 DALL·E 2 能在或十几秒内,就生成与文本匹配的图像,一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再需要人工一点点去修复,修复质量也更精准自然。
Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频,视频中由文本生成图片只需几秒。
视频地址: https://twitter.com/karenxcheng/status/1513569345049280512
DALL·E 2 的 unCLIP 模型使其生成的图像与文本提示的匹配度非常高,不像 Disco Diffusion 一样会错误理解文本描述,将水印或者把艺术家本人当成关联图像的一部分。
但如果 DALL·E 2 的模型在训练过程中,学习到的图像与其关联标签是错误的,那么最终生成的图像结果就是错误的。比如,训练到的信息是:与图片 「飞机」关联的标签是 「车」,那么其在生成关于「车」的图片时,就会产生包含「飞机」的图片,并不像人一样能主动进行纠错。
另外 DALL·E 2 在生成的多角度真实图像时,也会出现透视比例失真问题。
DALL·E 2 的潜在机遇与风险 DALL·E 2 功能如此强大迷人,想必大家都非常想亲自使用体验。但非常遗憾,DALL·E 2 的程序目前并不对公众开发,我们目前在网上看到的 DALL·E 2 相关信息,都是 DALL·E 2 官网、内部工作人员及少数特邀的相关行业专家发布出来的。
如果想要使用 DALL·E 2,目前唯一的办法就是通过官网申请进入候补名单,等待官方的邀请。
之所以采取这样谨慎的方式,是因为 OpenAI 公司深知 DALL·E 2 强大的图像生成和修改技术一旦开放使用,将会给社会的很多方面带来极大冲击和影响。
从好的方面来说,DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图像来解释抽象的原理或者概念;也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型,并可以随时修改;甚至可以将 DALL·E 2 作为生产工具,成为艺术创作流程的一部分。
推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为主题,生成了 1000 张相关图像,这些图像已经被整理成一本书,分享在 「Internet Archive」 上共所有人免费下载阅读。
但 DALL·E 2 也存在着被滥用的风险,比如用以生成血腥、暴力、露骨、低俗内容;伪造虚假的图像威胁诬告他人;或生成重大事件的虚假图像误导社会舆论等。
为了避免此类问题,DALL·E 2 对系统模型进行了预训练过滤,所有暴力、露骨内容都从其训练数据中删除,以限制 DALL·E 2 生成相关图像的能力。但是这并不能完全杜绝相关内容的出现,一些间接的描述可以绕过 DALL·E 2 的过滤设置。
下图是官方给出的一张示例,我们可以从中感受到人工智能被滥用的可怕后果。
此外,DALL·E 2 也带有一些原生的限制。据官方介绍,DALL·E 2 在默认情况下生成的图像,都以白人和西方文化特征为主,比如涉及到“婚礼”时,会假定是西方婚礼传统,并默认为异性恋夫妇。而且存在一些“刻板印象”:涉及到 CEO,图像都是男性,而涉及到空姐、护士的概念时,形象都是女性等,这些都是 DALL·E 2 目前正在改进并需要不断完善的地方。
总结 DALL·E 2 通过文本提示进行图像生成及修改方面的功能非常强大,可以达到以假乱真的地步。它的出现,无疑会给艺术、营销、设计、研究相关行业带来革命性的改变,但同时也存在被滥用的风险,需要谨慎、有限制性地使用。
DALL·E 2 程序目前没有对社会公众开放,想要体验功能的小伙伴,可以用进入 DALL·E 2 官网: https://openai.com/blog/dall-e/ 申请加入候补者名单。
如果你非常幸运得到了 DALL·E 2 名额,记得一定要仔细阅读官方给出的 「政策声明」 ,里面详细说明了 DALL·E 2 及生成图像的使用规范,如 DALL·E 2 生成的图像不可被用于商业用途,生成的图像不能侵犯他人肖像权(包括公众人物),图像发布到网络上时需明确注释是使用人工智能生成的等等。
参考资料:
https://www.lesswrong.com/posts/r99tazGiLgzqFX7ka/playing-with-dall-e-2
https://www.dezeen.com/2022/04/21/openai-dall-e-2-unseen-images-basic-text-technology/
https://80.lv/articles/transforming-images-with-openai-dall-e-2/
https://github.com/openai/dalle-2-preview/blob/main/system-card.md
https://weibo.com/1757693565/Lq4NV6ent?pagetype=profilefeed