阿里巴巴发布高清图像生成视频大模型:I2VGen-XL






I2VGen-XL由达摩院研发的高清视频生成基础模型,其核心部分包含两个阶段,分别解决语义一致性和清晰度的问题,参数量共计约37亿,模型经过在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,该数据分布广泛、类别多样化,模型对不同的数据均有良好的泛化性。项目于现有的视频生成模型,I2VGen-XL在清晰度、质感、语义、时序连续性等方面均具有明显的优势。
I2VGen-XL 项目旨在从输入图像生成高清视频。
它是一个具有大约 37 亿个参数的基本模型。
该模型针对视频和图像数据的混合进行了预训练,并针对高质量数据集进行了微调。
I2VGen-XL 在清晰度、纹理、语义和时间连续性方面展示了优势。
设计理念继承自VideoComposer项目。
它可以生成宽屏格式的720P视频。
生成的视频无水印,可应用于各种视频平台。
该模型保证了细节生成的稳定性并改善了纹理。
提供了一些生成视频的示例。
I2VGen-XL模型可体验 https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary
I2VGen-XL 架构和主要特性
I2VGen-XL 基于稳定扩散构建,并使用时空 UNet 进行建模。
它有两个阶段,确保语义一致性和提高分辨率和时空一致性。
该模型在高清、宽屏格式、连续性和良好的纹理方面进行了优化。
使用特定风格的视频进行训练,以改善生成模型的纹理。
提供了生成视频的示例。
型号限制
该模型生成小物体的能力可能有限
它在生成快速移动的物体方面也可能存在局限性
生成高清视频会显着减慢该过程
空间质量和时间变异性之间存在权衡
训练数据
该模型使用 7:1 的视频与图像比例进行训练
数据集涵盖各个类别,拥有数十亿数据点
数据来自开源数据、视频网站等来源
构建高质量数据对用于微调预训练模型
模型地址:https://huggingface.co/damo-vilab/MS-Image2Video
在线体验:https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary