Phenaki - 人工智能视频生成模型

Phenaki 是一款先进的人工智能模型,能够直接从文本输入生成长达数分钟的视频。此外,它还可以根据静态图像和提示生成视频。 与其他文献中使用的每帧基线相比,该视频编码器-解码器在时空质量和每个视频的令牌数量方面表现出色。为了从文本生成视频标记,Phenaki 使用双向掩码转换器,并将其与预先计算的文本标记作为条件。生成的视频令牌经过处理后,可以被解码成实际的视频。