不会 PS 没关系，AI 拼图技术已能以假乱真

这是一份看似平平无奇的日式便当。

但你敢信，其实每一格食物都是 P 上去的，而且原图还是酱婶儿的：

△ 直接抠图贴上去，效果一眼假

背后操作者并不是什么 PS 大佬，而是一只 AI，名字很直白：拼图扩散（Collage Diffusion）。

随便找几张小图拿给它，AI 就能自己看懂图片内容，再把各元素非常自然地拼成一张大图 —— 完全不存在一眼假。

其效果惊艳了不少网友。

甚至还有 PS 爱好者直呼道：

这简直是个天赐之物…… 希望很快能在 Automatic1111（ Stable Diffusion 用户常用的网络 UI，也有集成在 PS 中的插件版）中看到它。

为什么效果这么自然？

实际上，此 AI 生成的“日式便当”还有好几个生成版本 —— 都很自然有木有。

至于为啥还有多种版本？问就是因为用户还能自定义，在总体不变得太离谱的前提下，他们可以微调各种细节。

除了“日式便当”，它还有不少出色的作品。

比如，这是拿给 AI 的素材，P 图痕迹明显：

这是 AI 拼好的图，反正我愣是没看出什么 P 图痕迹：

话说这两年，“文字生成图像的扩散模型”着实大火了一把，DALL・E 2 和 Imagen 都是基于此开发出来的应用。这种扩散模型的优点，是生成图片多样化、质量较高。

不过，文字终究对于目标图像，最多只能起到模糊的规范作用，所以用户通常要花大量时间调整提示（prompt），还得搭配上额外的控制组件，才可以取得不错的效果。

就拿前文展示的日式便当来说：

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”，那就既没描述哪种食物放到哪一格，也没有说明每种食物的外观。但如果非要讲清楚的话，用户恐怕得写一篇小作文了……

鉴于此，斯坦福团队决定从别的角度出发。

他们决定参考传统思路，通过拼图来生成最终图像，并由此开发出了一种新的扩散模型。

有意思的是，说白了，这种模型也算是用经典技术“拼”出来的。

首先是分层：使用基于图层的图像编辑 UI，将源图像分解成一个个 RGBA 图层（R、G、B 分别代表红、绿、蓝，A 代表透明度），然后将这些图层排列在画布上，并把每个图层和文字提示配对。

通过分层，可以修改图像中的各种元素。

到目前为止，分层已经是计算机图形领域中一项成熟的技术，不过此前分层信息一般是作为单张图片输出结果使用的。

而在这种新型“拼图扩散模型”中，分层信息成了后续操作的输入。

除了分层，还搭配了现有的基于扩散的图像协调技术，提升图像视觉质量。

总而言之，该算法不仅限制了对象的某些属性（如视觉特征）的变化，同时允许属性（方向、光照、透视、遮挡）发生改变。

—— 从而平衡了还原度和自然度之间的关系，生成“神似”且毫无违和感的图片。

操作过程也很 easy，在交互编辑模式下，用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序（就是把从别处扣出来的图放到适当的位置）；还能调整生成图像的各个组件。用同样的源图，可以得出不同的效果。

△ 最右列是这个 AI 的输出结果

而在非交互式模式下（即用户不拼图，直接把一堆小图丢给 AI），AI 也能根据拿到的小图，自动拼出一张效果自然的大图。

研究团队

最后，来说说背后的研究团队，他们是斯坦福大学计算机科学系的一群师生。

论文一作，Vishnu Sarukkai 现为斯坦福计算机科学系研究生，还是硕博连读的那种。

他的主要研究方向为：计算机图形学、计算机视觉和机器学习。

此外，论文的共同作者 Linden Li，也是斯坦福计算机科学系研究生。

在校求学期间，他曾到英伟达实习 4 个月，与英伟达深度学习研究小组合作，参与训练了增加 100M + 参数的视觉转换器模型。

论文地址：

https://arxiv.org/abs/2303.00262

参考链接：

[1]https://twitter.com/_akhaliq/status/1631106075972755456
[2]https://www.reddit.com/r/StableDiffusion/comments/11fpf3s/collage_diffusion_creates_globally_harmonized/

本文来自微信公众号：量子位（ID：QbitAI），作者：Alex

不会 PS 没关系，AI 拼图技术已能以假乱真

为什么效果这么自然？

研究团队

股票涨3不追跌4不压是什么意思？

苹果 watchOS 9.4 正式发布

最新文章

净水器经销商（国产净水器十大名牌）

空客是哪个国家的公司(美国停止向c919提供发动机)

辣根是什么（辣根与芥末的区别）

中国洛阳（洛阳靠什么成为十三朝古都的？）

容祖儿新恋情（容祖儿和谁在一起过）

n是什么意思(N代表爱情含义)

电脑怎么设密码（电脑如何设置开机密码的图文教程）

美丽的诗句(中国最美的十大名诗)

三次元是什么意思（二次元、二点五次元、三次元、四次元是什么？）

头发油腻是什么原因（头发油的原因）

标签

热评文章

网上电信流量卡不是本地卡_网上电信流量卡不是本地卡可以用吗(不是本地的手机卡流量卡吗)

网上电信卡流量卡怎么注销_网上购买的电信流量卡在哪儿注销(电信流量卡你们都是怎么注销实名的)

网上电信卡流量怎么查询_网上电信卡流量怎么查询到(电信卡怎么查流量)

网上申请纯流量卡_在网上申请流量卡(在网上申请流量卡要注意什么)

网上电信大流量卡靠谱吗_网上购买的电信流量卡安全吗(某宝上卖的电信流量卡靠谱么)

不会 PS 没关系，AI 拼图技术已能以假乱真

为什么效果这么自然？

研究团队

股票涨3不追跌4不压是什么意思？

苹果 watchOS 9.4 正式发布

最新文章

净水器经销商（国产净水器十大名牌）

标签

热评文章

网上电信流量卡不是本地卡_网上电信流量卡不是本地卡可以用吗(不是本地的手机卡流量卡吗)

网上电信卡流量卡怎么注销_网上购买的电信流量卡在哪儿注销(电信流量卡你们都是怎么注销实名的)

网上电信卡流量怎么查询_网上电信卡流量怎么查询到(电信卡怎么查流量)

网上申请纯流量卡_在网上申请流量卡(在网上申请流量卡要注意什么)

网上电信大流量卡靠谱吗_网上购买的电信流量卡安全吗(某宝上卖的电信流量卡靠谱么)

关注我们的公众号