首页AI 新闻
北大团队用 Diffusion 升级 DragGAN,泛化更强生成质量更高,点一点「大山拔地而起」
125

北大团队用 Diffusion 升级 DragGAN,泛化更强生成质量更高,点一点「大山拔地而起」

好说新闻
好说新闻
2023-08-02 15:40

北大团队最新工作,用扩散模型也能实现拖拉拽 P 图!

点一点,就能让雪山长个儿:

或者让太阳升起:

这就是 DragonDiffusion,由北京大学张健老师团队 VILLA(Visual-Information Intelligent Learning LAB),依托北京大学深圳研究生院 - 兔展智能 AIGC 联合实验室,联合腾讯 ARC Lab 共同带来。

它可以被理解为 DragGAN 的变种。

DragGAN 如今 GitHub Star 量已经超过 3w,它的底层模型基于 GAN(生成对抗网络)。

一直以来,GAN 在泛化能力和生成图像质量上都有短板。

而这刚好是扩散模型(Diffusion Model)的长处。

所以张健老师团队就将 DragGAN 范式推广到了 Diffusion 模型上。

该成果发布时登上知乎热榜。

有人评价说,这解决了 Stable Diffusion 生成图片中部分残缺的问题,可以很好进行控制重绘。

让狮子在照片中转头

Dragon Diffusion 能带来的效果还包括改变车头形状:

让沙发逐渐变长:

再或者是手动瘦脸:

也能替换照片中的物体,比如把甜甜圈放到另一张图片里:

或者是给狮子转转头:

论文提出的方法,凭借其高效的设计,为生成的图像和真实图像提供了多种编辑模式。

这包括在图像中移动物体、调整物体大小、替换物体外观和图像内容拖动。

在该方法中,所有的内容编辑和保存信号都来自图像本身,无需任何微调或训练附加模块,这能简化编辑过程。

研究人员在实验中发现,神经网络第一层太浅,无法准确重建图像。但如果到第四层重建又会太深,效果同样很差。在第二 / 三层的效果最佳。

相较于其他方法,Dragon Diffusion 的消除效果也表现更好。

来自北大张健团队等

该成果由北京大学张健团队、腾讯 ARC Lab 和北京大学深圳研究生院 - 兔展智能 AIGC 联合实验室共同带来。

张健老师团队曾主导开发 T2I-Adapter,能够对扩散模型生成内容进行精准控制。

在 GitHub 上揽星超 2k。

该技术已被 Stable Diffusion 官方使用,作为涂鸦生图工具 Stable Doodle 的核心控制技术。

兔展智能联手北大深研院建立的 AIGC 联合实验室,近期在图像编辑生成、法律 AI 产品等多个领域取得突破性技术成果。

就在几周前,北大 - 兔展 AIGC 联合实验室就推出了登上知乎热搜第一的的大语言模型产品 ChatLaw,在全网带来千万曝光同时,也引发了一轮社会讨论。

联合实验室将聚焦以 CV 为核心的多模态大模型,在语言领域继续深挖 ChatLaw 背后的 ChatKnowledge 大模型,解决法律金融等垂直领域防幻觉,可私有化、数据安全问题。

据悉,实验室近期还会推出原创对标 Stable Diffusion 的大模型。

论文地址:https://arxiv.org/abs/2307.02421

项目主页:https://mc-e.github.io/project/DragonDiffusion/

转载自量子位 明敏查看原文

全部讨论

no data来都来了,坐下聊聊