首页AI 工具
文本生成视频大模型

文本生成视频大模型

达摩院
99人喜欢过
entry-slick
entry-slick
文本生成视频大模型简介

本模型基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。

模型描述

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

期望模型使用方式以及适用范围

本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下,上方为输入文本,下方为对应的生成视频:

| Robot dancing in times square. Robot dancing in times square. | Clown fish swimming through the coral reef.Clown fish swimming through the coral reef. | Melting ice cream dripping down the cone. Melting ice cream dripping down the cone. | | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | | A waterfall flowing through glacier at night. A waterfall flowing through glacier at night. | A cat eating food out of a owl, in style of van Gogh.A cat eating food out of a owl, in style of van Gogh. | Tiny plant sprout coming out of the ground. Tiny plant sprout coming out of the ground. | | Hyper-realistic photo of an abandoned industrial site during a storm.Hyper-realistic photo of an abandoned industrial site during a storm. | Balloon full of water exploding in extreme slow motion.Balloon full of water exploding in extreme slow motion. | Incredibly detailed science fiction scene set on an alien planet, view of a marketplace. Pixel art.Incredibly detailed science fiction scene set on an alien planet, view of a marketplace. Pixel art. |

官网

https://modelscope.cn/models/damo/text-to-video-synthesis/summary

社区动态
好说新闻
近日,阿里达摩院已在 AI 模型社区 “魔搭”ModelScope 上线了 “文本生成视频大模型”。
根据官方介绍,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿,目前仅支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
官方介绍称,本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下:
A giraffe underneath a microwave.(一只在微波炉里的长颈鹿)A goldendoodle playing in a park by a lake.(一只金贵犬在湖边的公园玩耍)据了解,模型已经在创空间和 huggingface 上线,可以直接体验,也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下,通过调用简单的 Pipeline 即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。
从试玩的结果来看,目前能生成的视频长度多在 2-4 秒,生成等候时间从 20 多秒到 1 分多钟不等。
image
分享