AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

趁我们不注意,AI 画手一直在悄悄迭代,最近新推出的 Stable Diffusion Reimagine 和 Midjourney v5 功能如此强大,不仅要淘汰人类画师,连提示工程师的饭碗怕是都要丢了。

这次,人类画手是真要失业了。

你敢相信,这张电影剧照一样的图片,居然是 AI 画的?

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

Midjourney v5 生成的光影和皮肤效果

更邪乎的是,AI 画手还会自己动脑子。

最近新出的 Stable Diffusion Reimagine,只要你给它一张图,它就会无限开发自己的想象力。你要多少版,它就给你生成多少版。

有了这个 AI,无论要求多奇葩,要改多少次,甲方爸爸想要的方案,设计师和画手几分钟就甩给他。

logo 放大的同时能不能缩小一点?改!

想要五彩斑斓的黑?改!

就是这么气定神闲,游刃有余。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

唯一要担心的就是,千万别让甲方爸爸知道……

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 学会想象,人类连 prompt 的工作也要丢了?

Stable Diffusion 这个 AI 画图工具,咱们都很熟悉了。

昨天,Stability AI 又曝出一个震撼消息:它把 Stable Diffusion 大大改进了一把。

这次新推出的产品,叫做 Stable Diffusion Reimagine。

敢叫 Reimagine,听起来就很震撼。

没错,现在你只要上传一张图片,SDR 就可以根据这个图片创作无数张新图。

而且它是真的想象,真的创作,并不是照抄原始图片里的面孔或物体,而是根据原始图像的灵感,重新创作新图。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

体验地址:https://clipdrop.co/ stable-diffusion-reimagine

我们都知道,在以往的 AI 作图工具中,prompt 的质量,往往决定着你能画出图片的上限。

很多人说,会不会 prompt,将成为使用 AI 的庸人和天才的分水岭。同样,提示工程师也把 prompt 视为自己打开 AI 大奖的秘密武器。

去年在科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,就拒绝分享出自己在 Midjourney 所用的提示。据说,他花了 80 多个小时,在 900 次迭代中,才完成了这幅画作。

而现在,不需要多复杂的 prompt,只需要把一张图片丢给 AI,算法就可以创造出我们想要的无穷多变化。

轻点一下鼠标,你的卧室立马大变样。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

技术原理

这个全新的 Stable Diffusion Reimagine,是基于 stability.ai 创造的一种新算法。

经典的 Stable Diffusion 模型,都是被训练成以文本输入为条件。

而 Reimagine 中,用一个图像编码器取代了原来的文本编码器。不是根据文本输入来生成图像,而是从图像中生成图像。在编码器通过算法后,还加入一些噪音,以产生变化。

这种方法产生了外观相似、但细节和构图不同的图像。

而与图像到图像的算法不同,原始图像首先就被完全编码,这意味着生成器并未使用来自原始图像的任何一个像素。

而且,Clipdrop 还能提升图片的分辨率。用户只需上传一张小图,就能获得一张至少有两倍细节水平的图片。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

据悉,Stable Diffusion Reimagine 的模型很快就会在 StabilityAI 的 GitHub 上开源了。

发挥不稳

当然,Reimagine 也存在一定的局限性。

最大的缺陷就是,它不会根据原始的 prompt 创作图像。

另外呢,它的发挥也没有那么稳定,有时很惊艳,有时会比较拉跨。

另外,虽然 Stability AI 在模型中安装了一个过滤器,阻挡不适当的请求,但它也不是万能的。

另外,AI 模型都无法避免的偏见问题,Reimagine 也不能避免,Stability AI 目前正在收集用户的反馈,希望能减轻偏见。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

网友已玩疯

而网友们当然已经迫不及待地玩上了。

左上角(或最左侧)是原始文件,而其他图片都是受原始文件启发后,「重新想象」的创作。

从分享的作品上来看,效果最为突出的确实是设计:

Stable Diffusion Reimagine 可以在不改变整体氛围的情况下,重新设计整个场景。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

看得出来,Stable Diffusion Reimagine 在手绘作品的处理上,表现得非常出色。

这位网友表示,它对「感觉」理解得相当好,自己很喜欢这种自由发挥的效果。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

此外,Stable Diffusion Reimagine 对二次元角色拿捏得也不错。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

在真实场景中,有网友在尝试了自己的自拍之后大赞称:「我打赌你们绝对猜不到哪张照片是真的。」

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

然而,小编在尝试一些「名场面」时,结果却是下面这样的……

首先输入《九品芝麻官》的「我全都要」:

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

然后让 Stable Diffusion「重新想象」一下:(这结果多少有些杀马特在里面)

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

换成「威尔・史密斯在奥斯卡现场怒扇克里斯洛克耳光」试试?

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

啊,这……

或许是我们的打开方式不对,毕竟,Stability AI 的主要目的帮助设计师们只用一张照片就能获得类似的备选方案。

那么,我们就用它们给出的案例来做个测试吧。

注意看,下面是官方的演示:

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

而下面这个是同一张图的「复现」效果……

显然,Reimagine 生成的图片看起来远没有那么逼真,而且比例也很奇怪。

在进行了数次尝试之后,我们仍然没有得到一张看起来完全真实的图像。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

对此,有网友在尝试之后也表示,Stable Diffusion Reimagin 生成图片的质量跟 Midjourney 的差距还是很大的。

因为 Midjourney 可以通过社区生成的大量反馈进行优化,而这一点是 Stable Diffusion 难以比拟的。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手终于会画手了

而另一强大的 AI 画手 ——Midjourney,当然也没闲着。

本周三,Midjourney 宣布:我们已经升级到第 5 版了!

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

比起之前的版本,V5 版的图像质量更高、输出更多样化、有更广泛的风格、支持无缝纹理、有更宽的纵横比、有更好的图像提示,以及更宽的动态范围……

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

Midjourney V5 的效果怎么说呢,AI 艺术家们给出的评价是 ——「太逼真,太完美,以至于令人毛骨悚然。」

「仿佛一个近视眼忽然戴上了眼镜 —— 画面忽然间就变成 4k 的了。」

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

网友评价:因为每次都太完美,太惊艳,到最后多巴胺都停止分泌了

可以看出,Midjourney 自 2022 年 3 月首次面世以来,在图像细节上一直在不停进步。去年 8 月推出了第 3 版,11 月推出了第 4 版,今年 3 月就推出了第 5 版。

输入这样一个 prompt「一个肌肉发达的野蛮人在 CRT 电视机旁手持武器、电影、8K、演播室照明」,v3、v4、v5 生成的图像依次如下 ——

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

Midjourney v3(左)、v4(中)和 v5(右)

但最惊艳的提升,还是对人手的处理。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

nice!

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

众所周知,Midjourney、Stable Diffusion 和 DALL-E 等模型,都经过了数百万人类艺术家作品的训练。

为了构建 LAION-5B 数据集,AI 研究者指导的机器人爬取了数十亿个网站,包括 DeviantArt、ArtStation、Pinterest、Getty Images 等的大型图像库,并收集了数百万张照片。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

然而即便如此,AI 画手依然没学会画手。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

即便是人和场景都已经达到真假难辨的程度,只要放大手部,基本就是一秒破功。

网友们纷纷表示,那些从不露手的「美女自拍」,多半就是 AI 干的了。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

这是为什么呢?

Stability AI 的解释是,在 AI 数据集中,人类的手不如面部显著;手在原始图像中往往很小,很少以大的形式出现。

而佛罗里达大学 AI 和艺术教授 Amelia Winger-Bearskin 的解释是 AI 们并不能真正理解「手」是什么,不理解它在解剖学上与人体有什么关系。

而 Wieland 发现,Midjourney v5 在大多数时候,都能画出 5 个手指的手,而不是 7 到 10 个指头的。

而 AI 会画手之后,网上出现的任何照片,都真假莫辨了。

AI 画手会画手了,Stable Diffusion 学会想象,卷趴人类提示工程师-冯金伟博客园

如果非要说 Midjourney V5 有什么缺点,大概就是太过逼真和完美,也就让我们丧失了那种多次尝试后找到最佳结果的快感。

(昨天试了多次终于用文心一言画出完美林黛玉的小编表示,非常赞同)

这就是老虎机效应(near-miss)—— 就差那么一点儿,才是让我们继续玩下去的动力。

参考资料:

  • https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

  • https://stability.ai/blog/stable-diffusion-reimagine

本文来自微信公众号:新智元 (ID:AI_era)