与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

虽然此前 CEO 曾陷入种种争议,但依然不影响 Stability AI 登上时代杂志。近日,该公司又发布了 Stable Diffusion 的 XL 0.9 版本,35 亿 + 66 亿双模型,搭载最大 OpenCLIP,让 AI 生图质量又有了新的飞跃。

Stable Diffusion 又双叒升级了!

最近,Stability AI 发布了最新版的 Stable Diffusion XL 0.9(SDXL 0.9)。

比起之前的模型,这波更新在图像和构图细节上,都有了质的飞跃。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

尤其是在参数上,这次的 SDXL0.9 具有 35 亿参数基础模型和 66 亿参数模型的集成管线。相比之下,Beta 测试版仅用了单个 31 亿参数的模型。

为了生成更逼真的图像,以及更大的深度和更高的分辨率(1024×1024),SDXL 0.9 使用了两个 CLIP 模型,包括迄今为止最大的 OpenCLIP 模型(OpenCLIP ViT-G / 14)。

不仅如此,SDXL 0.9 在消费级显卡上就能运行。只需要 Win10/11 或 Linux 操作系统、16GB 内存,以及具有 8GB 以上显存的英伟达 RTX 20 系显卡即可。

SDXL 0.9 和 SDXL Beta 的差异究竟有多大?

咱们看图说话。

实测效果

下面就来看看新版的 SDXL 0.9,在图片细节上有什么不一样吧~

Prompt:外星人在拉斯维加斯漫步

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL Beta 版

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL 0.9

Prompt:优胜美地国家公园的一只狼

Negative prompt:3d 渲染,光滑,塑料,模糊,颗粒感,低分辨率,动漫,过度饱和

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL Beta 版

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL 0.9

Prompt:手举咖啡

Negative prompt:3d 渲染,光滑,塑料,模糊,颗粒状,低分辨率,动漫

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL Beta 版

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL 0.9

官方表示,SDXL 系列还会提供一系列超越基本文本 prompt 的功能。

包括图像对图像的 prompt(输入一个图像以获得该图像的变化)、内画(重建图像的缺失部分)和外画(构建一个现有图像的无缝扩展)。

SDXL 0.9 在两个 CLIP 模型上运行,包括迄今为止训练的最大的 OpenCLIP 模型之一(OpenCLIP ViT-G / 14),这增强了 0.9 的处理能力和创造具有更大深度和 1024×1024 更高分辨率的逼真图像的能力。

SDXL 团队不久将发布一个研究博客,更详细地介绍这个模型的规格和测试。

荣登 Time 最具影响力公司

就在最近,Stability AI 被时代杂志选为 100 家最有影响力的公司之一。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

对于 Stability AI,时代杂志是这样介绍的 ——

如果你能用文字描述,Stability AI 可以将其转化为图片。

Stable Diffusion 是该公司帮助训练的免费开源文本到图像生成器,在 8 月份推出后,它改变了世界对于 AI 潜力的理解。

然而,Stability AI 很快陷入了种种争议,包括如何训练这些工具,以及从互联网上获取数据的版权诉讼之中。

尽管如此,该公司表示,在推出 Stable Diffusion 2.0 的一个月内,App Store TOP 10 应用中的 4 个,背后都是这个模型。

而公司 CEO Emad Mostaque 也被报道经常夸大公司的表现,此前他曾声称:Stability AI「真正的开源」为「突破」铺平了道路。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SDXL Beta

实际上,SDXL 的 Beta 版本也没发布多久,可见作图这一块的版本迭代真的是日新月异。

当时,StabilityAI 就表示,Stable Diffusion XL 并不是最终发布版的名字,并且也并非是 v3,因为 SD-XL 的架构和 SD-v2 系列的模型架构非常相似。

下面几张 SD-XL 官方发布的例图,可以看出图像的质量已经非常能打了。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SD-XL 相比之前版本的改进如下:

  • 使用较短的描述性 prompt 即可生成高质量图像

  • 可以生成更贴合 prompt 的图像

  • 图像中的人体结构更合理

  • 与 v2.1 和 v1.5 版本 (程度较轻) 相比,SD-XL 生成的图片更符合大众审美

  • 负面提示词(negative prompt)是可选项

  • 生成的肖像图更逼真

  • 图像中的文本更清晰

清晰可读的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中,并不具备在图片中生成可读文本的能力。

虽然 SD-XL 生成的文本信息并不总是准确,但确实得到了巨大的提升。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

一个年轻的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿着裙子,侧灯

更好的人体结构

Stable Diffusion 在生成人体解剖结构方面一直存在诸多问题,多几条腿、少个胳膊实在是太常见不过的问题。

比如说 SD-v1.5 生成瑜伽的图像,经常会出现扭曲的人体。

而 SD-XL 虽然生成的图像并不完美,不过在人体姿态方面已经有了显著的进步。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

更有美感(more aesthetic)

比如同样以屋子为主题,SD-XL 可以生成更对称、视觉效果更好的照片。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

SD-XL 在肖像照片上也有显著改进。

与 Midjourney 开战,Stable Diffusion XL 0.9 重磅发布,35 亿 + 66 亿双模型,AI 图像生成飞跃式进步-冯金伟博客园

一个女人的照片

参考资料:

  • https://stability.ai/blog/sdxl-09-stable-diffusion

本文来自微信公众号:新智元 (ID:AI_era)