首页AI 新闻
Stable Diffusion 背后公司开源新模型!直出 AI 海报,堪称像素级图像生成
39

Stable Diffusion 背后公司开源新模型!直出 AI 海报,堪称像素级图像生成

好说新闻
好说新闻
2023-04-29 16:27

StabilityAI 是一家开放源代码的人工智能绘画公司,最近又有新打算了!

他们发布了全新的开源模型 DeepFloyd IF ,在发布后不久就登上了 GitHub 热门榜!

DeepFloyd IF 不仅可以生成照片般的高质量图像,还能解决文本与图像生成领域中的两个大问题:

精确绘制文本(如霓虹灯招牌); 精确理解和处理空间关系(如猫照镜子看见狮子的倒影)。

对网友而言,这是伟大的一步。之前想要让 Midjourney v5 在霓虹灯招牌上写字,AI 却只能随意划拉几笔——对于镜子中的理解也更加有限。

而使用 DeepFloyd IF 可以巧妙地把指定的文本放置在任何地方,如霓虹灯招牌、街头涂鸦、服饰、手绘插图等去,并以最适合的字体、风格、排版的方式出现在最合适的位置。

这意味着,我们可以利用 AI 直接输出商品渲染图或海报,实用性更强,同时也为视频特效开辟了新的方向。

目前 DeepFloyd IF 已经在非商业使用许可协议下开源,并且团队表示一旦收集到足够的用户反馈,将转向更加宽松的协议。

DeepFloyd IF是什么

DeepFloyd IF 是一种基于扩散模型的 AI 绘画模型,与之前的 Stable Diffusion 相比有两大不同。其负责理解文字的部分从 OpenAI 的 CLIP 换成了谷歌 T5-XXL,结合超分辨率模块中额外注意力层,可以获得更准确的文本理解;其负责生成图像的部分从潜扩散模型换成了像素级扩散模型,即扩散过程直接作用于像素。

官方还提供了一组 DeepFloyd IF 与其他 AI 绘画模型的直观对比。

可以看出,使用 T5 做文本理解的谷歌 Parti 和英伟达 eDiff-1 也都可以准确绘制文字,AI 不会写字这事就是 CLIP 的锅。

不过英伟达 eDiff-1 不开源,谷歌的几个模型更是连个 Demo 都不给,因此 DeepFloyd IF 就成了更实际的选择。 具体生成图像上 DeepFloyd IF 与之前模型一致,语言模型理解文本后先生成 64x64 分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上,通过把指定图像缩小回 64x64 再使用新的提示词重新执行扩散,也可以实现以图生图并调整风格、内容和细节,并且不需要对模型做微调就可直接实现。

另外,DeepFloyd IF 的优势还在于,IF-4.3B 基础模型是目前扩散模型中 U-Net 部分有效参数是最多的。在实验中,IF-4.3B 取得了最好的 FID 分数,并达到 SOTA(FID 越低代表图像质量越高、多样性越好)。

DeepFloyd 的背后故事

DeepFloyd AI Research 是 StabilityAI 旗下的独立研发团队,名字来源于平克弗洛伊德乐队,自称为一只“研发乐队”,团队成员主要来自东欧背景,仅有四人。

除了开源代码外,他们还在 HuggingFace 上提供了 DeepFloyd IF 模型的在线试玩,但目前对中文支持并不够好。

参考链接:

Deepfloyd IF 在线Demo:https://huggingface.co/spaces/DeepFloyd/IF

Github链接:https://github.com/deep-floyd/IF

全部讨论

no data来都来了,坐下聊聊