从视频编解码角度看Sora视频

编解码 • 来源：手撕编解码 • 2024年2月26日上午10:11 • 技术文章

要问2024年什么技术话题最火爆，那必须是OpenAI的Sora莫属了。虽然Sora还尚未公布对公众何时开放使用，但似乎并妨碍大家的讨论热情。

Sora的厉害之处在于它可以根据用户的文本提示来生成一段最长60秒的视频，而在2023年的时候，AI能够生成视频的最大时长仅仅只是16秒。此外，Sora还可以模拟真实物理世界生成具有多个角色、包含特定运动的复杂场景视频。

Sora和之前已有的其他文生视频工具所不同的是，它同时使用了Transformer架构和Diffusion模型。具体可以参考它的报告：https://openai.com/research/video-generation-models-as-world-simulators

作为一个视频从业者，我在第一时间从Sora官网上也下载了一些它所生成的视频，如下图所示：

这些视频有一个共同点：它们都是H.264视频编码标准且帧率fps为30的一镜到底短视频。且这些视频所用编码器的输入都是8bit的YUV420格式，最大分辨率是1080P。如下图所示：

以Sora这次公开的最厉害的这个60s视频为例，它的Prompt是下面这段不到400个字符的描述：

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

它却可以得到一段48MB的视频。粗看这个视频整体效果确实挺惊艳的，仔细看细节还是有Bug的，比如下面人的左右手的虎口。