首页AI 新闻
阿里巴巴发布高清图像生成视频大模型:I2VGen-XL
257

阿里巴巴发布高清图像生成视频大模型:I2VGen-XL

好说新闻
好说新闻
2023-08-30 18:22

I2VGen-XL由达摩院研发的高清视频生成基础模型,其核心部分包含两个阶段,分别解决语义一致性和清晰度的问题,参数量共计约37亿,模型经过在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,该数据分布广泛、类别多样化,模型对不同的数据均有良好的泛化性。项目于现有的视频生成模型,I2VGen-XL在清晰度、质感、语义、时序连续性等方面均具有明显的优势。

  • I2VGen-XL 项目旨在从输入图像生成高清视频。

  • 它是一个具有大约 37 亿个参数的基本模型。

  • 该模型针对视频和图像数据的混合进行了预训练,并针对高质量数据集进行了微调。

  • I2VGen-XL 在清晰度、纹理、语义和时间连续性方面展示了优势。

  • 设计理念继承自VideoComposer项目。

  • 它可以生成宽屏格式的720P视频。

  • 生成的视频无水印,可应用于各种视频平台。

  • 该模型保证了细节生成的稳定性并改善了纹理。

  • 提供了一些生成视频的示例。

  • I2VGen-XL模型可体验 https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

I2VGen-XL 架构和主要特性

  • I2VGen-XL 基于稳定扩散构建,并使用时空 UNet 进行建模。

  • 它有两个阶段,确保语义一致性和提高分辨率和时空一致性。

  • 该模型在高清、宽屏格式、连续性和良好的纹理方面进行了优化。

  • 使用特定风格的视频进行训练,以改善生成模型的纹理。

  • 提供了生成视频的示例。

型号限制

  • 该模型生成小物体的能力可能有限

  • 它在生成快速移动的物体方面也可能存在局限性

  • 生成高清视频会显着减慢该过程

  • 空间质量和时间变异性之间存在权衡

训练数据

  • 该模型使用 7:1 的视频与图像比例进行训练

  • 数据集涵盖各个类别,拥有数十亿数据点

  • 数据来自开源数据、视频网站等来源

  • 构建高质量数据对用于微调预训练模型

模型地址:https://huggingface.co/damo-vilab/MS-Image2Video

在线体验:https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

全部讨论

no data来都来了,坐下聊聊