要问2024年什么技术话题最火爆,那必须是OpenAI的Sora莫属了。虽然Sora还尚未公布对公众何时开放使用,但似乎并妨碍大家的讨论热情。
Sora的厉害之处在于它可以根据用户的文本提示来生成一段最长60秒的视频,而在2023年的时候,AI能够生成视频的最大时长仅仅只是16秒。此外,Sora还可以模拟真实物理世界生成具有多个角色、包含特定运动的复杂场景视频。
Sora和之前已有的其他文生视频工具所不同的是,它同时使用了Transformer架构和Diffusion模型。具体可以参考它的报告:https://openai.com/research/video-generation-models-as-world-simulators
作为一个视频从业者,我在第一时间从Sora官网上也下载了一些它所生成的视频,如下图所示:
这些视频有一个共同点:它们都是H.264视频编码标准且帧率fps为30的一镜到底短视频。且这些视频所用编码器的输入都是8bit的YUV420格式,最大分辨率是1080P。如下图所示:
以Sora这次公开的最厉害的这个60s视频为例,它的Prompt是下面这段不到400个字符的描述:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
它却可以得到一段48MB的视频。粗看这个视频整体效果确实挺惊艳的,仔细看细节还是有Bug的,比如下面人的左右手的虎口。
再比如prompting_7.mp4这个视频,看它的SEI编码参数,使用的是开源的x264编码器,且设置的连续B帧个数是3个,如下图所示:
但是,我们看它视频里面实际的帧类型:前面的216帧还是正常的,从217帧开始突然出现了一段Low Delay P的码流,后面新的I帧以后又恢复了连续3个B帧的编码格式。
根据我个人知识,像这种混合视频帧类型的现象应该是把几段视频拼接到一起了吧。
此外,还可以看到这些Sora视频的平均码率是比较高的。比如这个720P视频平均码率达到14220kbps。
值得注意的是,Sora根据文本提示生成的短视频,目前基本都是只有视频流,没有音频流。
Sora的出现或许是一件好事,它降低了视频创作的门槛,如果你有好的视频创意,就可以更快速的实现落地。那么像抖音,快手这些短视频平台,每天就会有更多的上传视频,相应的短视频处理服务就需要通过视频压缩技术来降低这些视频的体积大小。
从视频编解码角度看Sora,目前可以确定的是,它将会给短视频的来源增加一种新的可能,但终究还要接入到H.264/H.265等主流视频编码标准的视频处理和消费链路之中,该压缩压缩,该转码转码。
至于说这类AI生成视频是否有一些特性,区别于摄像头的自然场景视频的压缩,那还得继续研究。可能不久以后,CTC的编码测试序列里面就会有一类叫做AI视频的序列。
我在想,如果现在已经能够用一段文本描述来生成一段视频,那么反过来是不是一段视频也能被“压缩成”一个文本描述呢,这样或许对视频编解码的改变将是颠覆的。
作者:codec2021
来源:公众号——手撕编解码
原文:https://mp.weixin.qq.com/s/z3LInOCwNXzGV_NzO1wv8g
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。