Sora可以根据用户的文本提示创建最长60秒的逼真视频,继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。对于需要制作视频的艺术家、电影制片人或学生,Sora带来了无限可能。

Sora的技术报告已经出来了:Video generation models as world simulators
OpenAI
没有发布GPT-5,反而进军了新的领域:文生视频。OpenAI新发布的文生视频模型Sora不仅像DALLE-3有很好的长文本理解能力,而且可以生成长达分钟级别的高质量视频,从官方示例上看,生成的视频效果确实惊艳。Sora可以生成宽屏 1920x1080 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。
OpenAI创始人山姆奥特曼从技术上看,Sora和DALLE-3一样都是采用扩散模型架构,即从一个随机噪音开始逐步去噪生成一个视频,这个一个比较成熟的技术方案。不过最近谷歌的几个视频生成工作如VideoPoet是采用基于Transformer的自回归方案。在文生图领域,扩散模型是主导,那么在视频生成领域自回归会不会更胜一筹,这个还有待未来的验证。
同时Sora的模型采用Transformer,像ViT一样将图像或者视频转成patches(类似文本tokens)送入Transformer模型。采用Transformer的一个优势是有很好的scaling
性能。我估计这里为了减少计算量,还可能会采用latent diffusion,类似Meta之前的DiT。从最新的技术报告上看,确实是先用Visual Encoder将视频转到latent空间,然后再分解成patches:
扩散模型之DiT:纯Transformer架构213 赞同 · 8 评论文章
Sora在训练过程中采用视频的原始分辨率进行训练,而不是像通常那样裁剪成正方形图片训练。这样训练的好处是可以避免裁剪效应。

而且这也让Sora支持生成变分辨率的视频(1920x1080和1080x1920 视频以及介于两者之间的所有视频)。在推理时,只需要重新组织随机初始化的noisy patches的grid大小(估计是通过位置编码来控制)就可以控制生成视频的的分辨率和时长。


Sora还使用 DALL·E 3 的recaption技巧,即为视觉训练数据生成高度描述性的caption,这让Sora能够更忠实地遵循生成视频中用户的文本指令,而且会支持长文本,这个应该是OpenAI独有的优势。
DALL-E 3技术报告阅读笔记164 赞同 · 19 评论文章
此外,从OpenAI公布的细节看,Sora不单单支持文生视频,还支持图生视频,即用一张图片生成
生成视频,准确地动画图像的内容并关注小细节。Sora还可以获取现有视频并对其进行扩展或填充缺失的帧。
比如你可以先用DALLE-3生成一张图像,然后用Sora转成视频:
Sora支持对已有的视频进行扩展,无论是向前还是向后(图生视频本质上属于视频扩展,只不过是单帧视频的扩展)。