首页AI 新闻
Midjourney 危了!Stable Diffusion-XL 公测来袭:会画手,能写字,简单 Prompt 也有好效果
9

Midjourney 危了!Stable Diffusion-XL 公测来袭:会画手,能写字,简单 Prompt 也有好效果

好说新闻
好说新闻
2023-04-18 10:30
通过使用免费的且开源的 Stable Diffusion,也能达到 Midjourney 的水平!

自从 Midjourney 发布 v5 以来,生成的图像中人物的真实程度和手指细节等方面有了显著的改善,同时在 prompt 的准确理解、审美多样性和语言理解等方面也取得了进步。相比之下,使用 Stable Diffusion 需要写长长的 prompt,才能生成高品质的图像,需要多次抽卡。

近期,Stability AI 官方宣布,正在研发中的 Stable Diffusion XL 已开始向公众展开测试,并且现在可以在 Clipdrop 平台上免费试用。

试用链接:https://clipdrop.co/stable-diffusion

Stability AI 创始人兼首席执行官 Emad Mostaque 表示,目前该模型仍处于训练阶段,一旦参数稳定后将会开源。据了解,SD-XL 在“握手”等图像细节方面的表现将更加卓越,几乎完全可控。

Stable Diffusion XL 并不是最终发布版的名称,同时也不是 v3 版本,因为 SD-XL 的架构与 SD-v2 系列的模型架构非常相似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

简约的家庭健身房,橡胶地板,壁挂式电视,举重凳,药球,哑铃,瑜伽垫,高科技设备,高细节,组织和效率

以下是SD-XL官方发布的几张样例图,可以看出图像质量已经非常高:

然而,有些网友认为,仅仅因为质量更高并不代表更好,SD-XL 为了避免“糟糕的口味”,设定了太多规则,定制空间也越来越小,不符合大多数人的口味。目前,1.5版的 Stable Diffusion 仍然是社区内最流行的基础模型。

一些网友希望新版SD能够与SD 2.1版本的嵌入、Hypernetworkes和Lora模型保持兼容,否则从头开始进行重训练将非常困难。

还有人认为,SD-XL的表现与Civit网站上用户分享的模型差不多,新模型的效果也一般。

SD-XL:开源版的 MJ

关于Stable Diffusion XL模型的详细信息,官方尚未透露太多,目前只知道它是一个类似于v2模型架构,但规模和参数量更大的模型。SD-v2.1拥有9亿个参数,而SD-XL则大约有23亿个参数。Emad表示,正式版可能会额外发布一个更小的蒸馏版本。

与之前版本相比,SD-XL的改进包括:

  • 使用较短的描述性 prompt 即可生成高质量图像
  • 生成的图像更符合 prompt
  • 图像中的人体结构更合理
  • 与v2.1和v1.5版本相比,SD-XL生成的图片更符合大众审美(程度较轻)
  • 负面提示词(negative prompt)是可选项
  • 生成的肖像图更逼真
  • 图像中的文本更清晰

需要注意的是,SD-XL可能与之前版本的插件不兼容。

清晰可读的文字

需要注意的是,在v1系列和v2.1版本的Stable Diffusion模型中,并不具备在图片中生成可读文本的能力。尽管SD-XL生成的文本信息并不总是准确的,但确实有了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女人坐在餐馆里拿着写着「Menu」的菜单

Photo of a man holding a sign that says “Stable Diffusion”

一个男人举着写着「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light一个年轻的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿着裙子,侧灯

更好的人体

Stable Diffusion在生成人体解剖结构方面一直存在诸多问题,例如多几条腿、缺失胳膊等常见问题。通常需要使用inpaint功能对图像进行进一步的修正,或者使用ControlNet的Open Pose功能从参考图像中复制人体的姿态来解决这些问题。

例如,在SD-v1.5生成瑜伽图像时,经常会出现扭曲的人体。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting一个女人的照片在瑜伽服装,三角形的姿势,海滩在晚上,边缘照明

尽管SD-XL生成的图像并不完美,但它在人体姿态方面已经取得了明显的进步。

更具美感

例如,使用SD-XL生成的以房屋为主题的照片,相对于之前的版本,生成的照片更对称且视觉效果更好。

SD-XL 在肖像照片上也有显著改进。

photo shot of a woman一个女人的照片

更 prompt 的图像

SD-XL具备更好的prompt理解能力,可以生成更加精确的图像。

例如,在使用双色调作为prompt时,SD-v1.5只能生成黑白图像,而SD-XL则可以生成带有多种颜色的双色调图像。

相较于v1版本,SD-XL对于提示符的理解能力也有了更大的提升。

duotone portrait of a woman

一个女人的双色调肖像

由于SD-XL与v2系列模型同属一类,因此文本模型的尺寸更大,可以比v1模型更好地理解提示词。

例如,下面的例子中,v1.5模型无法理解图像中的两个主题(机器人和人类),但SD-XL模型可以生成正常的图像(虽然机器人可能还不够”big”)。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

艺术风格

在艺术风格方面,SD-XL并没有显著改进,和之前的版本各有所长。

例如,下面两个不同版本的模型以不同的角度生成了Edward Hopper风格的图像。

New York city by Edward Hopper

Edward Hopper 绘制的纽约

在Leonid Afremov的风格中,SD-v1.5生成的图像更准确,而SD-XL则缺乏那些独特且多彩的画笔笔触。

New York city by Leonid Afremov

Leonid Afemov 绘制的纽约

在William-Adolphe Bouguereau的风格中,SD-v1.5和SD-XL都可以生成类似的内容,但SD-XL更接近Bouguereau创作的经典学院派绘画,并且包含更多面部细节。

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau 绘制的美女肖像

风格转变问题

在添加一些无关紧要的关键字后,模型的风格可能会突然转变。例如,先生成一张照片风格的图像:

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山

再添加一条黄色的围巾后,图像风格就变成了卡通风格。

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头发染得很亮,棕色的眼睛,围着黄色的围巾,穿着白衬衫和蓝色牛仔裤,站在一个火山为背景的海滩上

这种问题的根源可能在于预览问题,在正式发布之后可能会得到解决,只有时间能够验证。

参考资料:

https://clipdrop.co/stable-diffusion

全部讨论

no data来都来了,坐下聊聊