感谢网友 Sancu 的线索投递!

原文标题:《逼人去学挖掘机:朱俊彦团队新 AI 模型发布,设计圈看了心慌慌》

CV 大佬朱俊彦的新论文,让设计师们感觉危了。

事情是这样的:

量子位在微博上搬运了朱俊彦团队的新成果,一个能将 2D 草图一键变成 3D 模型的新算法,却意外引发设计圈盆友们的热烈转发讨论。

配文全是“沃日”、“???”……

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

简单来说,这个模型能让非常粗糙的简笔画,一键变成逼真 3D 模型

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

还支持实时编辑,不满意的地方擦掉重画,立马生成一个新的:

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

要知道之前的“图转图”模型,基本都是停留在 2D 层面,这回直接变 3D 真是一个突破。

也确实是生产力利器。

但没想到,是设计圈先感到了危机。有圈内博主就觉得又要被 AI 抢饭碗了,随后也有很多人跟转了这一条。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

所以论文成果到底说了啥?一起来看。

可从任意角度实时编辑

现在有很多图-图的转换模型,但基本上都是 2D-2D。

这是因为从 2D 到 3D,在训练和测试过程中都有很大挑战。

训练方面,想要把 2D 输入图像和 3D 输出图像配对,需要庞大数据集,成本会很高。

测试方面,为了得到不同角度的 3D 模型,需要输入图像的多个视角,但是二者之间可能存在不一致的情况,导致生成效果不好。

为了解决这些问题,朱俊彦团队提出了使用 3D 神经场景表示(3D neural scene representations)的条件生成模型。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

它只需要给定一个 2D 标签图(如语义分割图和勾线图),能为每个 3D 点匹配标签、颜色和密度等。实现在渲染图像的同时,像素对齐标签图像。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

通过构建一个交互式系统,用户能在任何视角修改标签图,并生成与之相对的输出。

为了实现跨视图编辑,需要将额外的语音信息编码为 3D 的,然后通过图像重建和对抗损失(adversarial losses)的 2D 监督,来学习上述 3D 表示。

重建损失可以确保 2D 用户输入和相应的 3D 内容对齐,像素对齐条件鉴别器( pixel-alignedconditional discriminator)也进一步促使外观和标签对应合理,并在新视角时也保持像素对齐。

最后,方法还提出了跨视图一致性损失,强制潜码在不同视点保持一致。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

和不同模型对比显示,pix2pix-3D 能在保持多视角一致的情况下,生成高质量结果。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

消融实验结果同样显示,该方法的生成结果能更好和输入图像对齐。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

不过研究团队也提出了方法的一些局限性。

第一,目前它还只能针对于单个对象

第二,模型在训练过程中,需要与每个训练图像关联相机姿态(camera pose),推理时不需要。如果能不依赖于相机姿态,可以进一步扩大模型的使用范围。

朱俊彦团队出品

该论文成果来自朱俊彦团队。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

朱俊彦,现任 CMU 计算机科学学院助理教授,是 AI 领域知名的青年学者。

2008 年,朱俊彦进入清华大学计算机科学系,学习计算机科学专业。在同专业 140 人中,朱俊彦排名第 2。

2012 年清华本科毕业后,朱俊彦奔赴美国,在 CMU 和 UC 伯克利经过 5 年学习,获得了 UC 伯克利电气工程与计算机科学系的博士学位,师从 Alexei Efros。

其博士毕业毕业论文 Learning to Generate Images,获得了计算机图形学顶会 ACM SIGGRAPH 2018“杰出博士论文奖”。

博士毕业后,朱俊彦来到 MIT 计算机与人工智能实验室(CSAIL),成为一名博士后研究员。2020 年秋季,他回到曾经的母校 CMU(卡内基梅隆大学),担任助理教授一职。

曾提出 CycleGAN、GauGAN 等明星模型。

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

GauGAN 支持涂鸦变风景画

朱俊彦团队新 AI 模型发布,2D 简笔画一键转 3D 模型-冯金伟博客园

vid2vid 支持从语义图生成真实场景

论文一作为 Kangle Deng。他现在是卡耐基梅隆大学机器人学院的一名在读博士。

2020 年从北京大学本科毕业。他以第一作者身份发表的论文,曾被 CVPR 2022、ICLR 2021 接收。

论文地址:

https://arxiv.org/abs/2302.08509

本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏