通过智能视频分析和增强来促进视频转码

对于短视频应用,上传到云端的视频已经被严重压缩,对于一般质量的视频需要进一步增强后转码。提出的 CAE 方案通过对视频内容分类,针对性的预处理增强,以及自适应编码,相比原始的 x264 编码,取得了较高的 VMAF 指标码率节省和较低的复杂度。

来自 Visionular 的 Zoe Liu 将讨论由视频分析和增强促进的视频编解码。如下图所示,左侧的原始视频是 360P,文件大小约为 2MB。这个视频的比特率在 900kbps 左右,按客户要求必须将视频编码为 300kbps 左右的较低码率。采用了 x264 来做编码的视频结果如左图所示,而使用该公司的 Aurora4 H264 编码器,可以实现相同的码率但是更大的分辨率,如右图所示。

图片
CAE 智能优化结果

下图是 CAE 视频编码智能优化的端到端框架,通过分析视频来进一步优化视频编码或转码,其业务场景包含 VoD 视频点播和直播流。由于涵盖直播流媒体,必须考虑在处理阶段的计算复杂度。对于直播来说,即使有时会有延迟,也可以允许有几秒或少于半秒的延迟,它必须能够在实时意义上处理每一帧。因此可以使用的方案在计算复杂度方面确实是有限的。该方案基本上是性能和效率的折衷。

这里主要针对的视频内容是用户生成内容 UGC。考虑短视频应用场景,用户的视频被上传到服务器端,很难保证每一个视频都有良好的质量。特别是来自网络连接不太好的地方,视频在进入云端之前已经被高度压缩,在云端的视频会表现出大量的压缩伪影。

图片
CAE 视频编码智能优化-端到端框架

CAE 的处理流程包括场景分类,预处理和自适应编码。首先需要区分视频的内容类别,以应用不同的分析、处理,并相应地自适应地选择最合适的编码工具。场景分类阶段,将视频内容分为优质内容、视频会议、屏幕内容、在线游戏、动画内容、户外场景以及体育运动。预处理阶段的主要工具包括锐化、ROI、帧率上下变换、颜色空间转换、去噪、去振铃、去运动模糊和去胶片噪声等。自适应编码工具包含自适应码率控制,基于机器学习的优化、以及内容自适应编码。

图片
CAE 智能优化步骤

视频内容分类

屏幕内容可以包括计算机生成内容、游戏或是动画,而户外场景则有不同的光照条件或体育运动。这里主要讨论的是区分屏幕内容和非屏幕内容的技术。下面的例子来自 libaom,它是相对新的开源编解码标准 AV1 的软件实现。右图截取了 libaom 中区分屏幕内容和非屏幕内容的主要代码。

这里在图像块的基础上统计颜色熵,即简单地计算该块内有多少种颜色,并设定一个经验阈值,例如 4。如果该块仅有非常有限的颜色,则可以把这个区块看成是一个单调图像块。之后统计图片中这种图像块的数量,就可以进行分类。较少的颜色种类将被分类为屏幕内容,否则就是非屏幕内容。

不同场景也总是与不同的编码工具结合起来。对于 AV1 来说,它为屏幕内容的编码提供了专门的编码工具,主要是 IntraBC 和 Palette。编码时可以只应用 Palette 或 IntraBC+Palette。在 libaom 中,还有进一步的优化。比如可以统计每个图像块的方差并设置阈值,计算这样的区块的数量来进行分类。

图片
场景分类

在低延迟 RTC 的屏幕内容编码场景下,Aurora1 super-fast 相比 x264 super-fast 可以节省 81.25% 的码率。在速度方面,前者 FPS 约为后者的 1/3 但是对于 1080p 的屏幕内容也可以做到 46.64 FPS。讲者也给出了编码的主观效果对比。

图片
低时延 RTC-屏幕内容编码

对于上传到云端的视频,可以根据视频的主观质量对其进行分类,例如分为好的,中间的或差的视频质量,然后应用不同的处理策略。这里的质量评估无法参考原始视频,在学术界称之为盲视频质量评估(Blind VQA)。对于短视频应用程序,如果视频质量非常差,则尽量不要流向终端用户;如果视频质量良好,则可能吸引到大量的终端用户观看。对于中等质量的视频,则可以应用增强机制,以吸引更多的用户观看。BVQA 领域有很多的研究,这里会提到几个。其中 SROCC 和 KROCC 可以指示预测的单调性,PLCC 和 RMSE 指示预测的准确性。更好的 VQA 方法应该有更大的 SROCC、KROCC、PLCC,以及更小的 RMSE。

图片
预处理

这里推荐一篇论文《UGC-VQA》,它刚刚发表在 IEEE TIP 上。为了使用深度学习工具来做质量评估,需要一些视频标注,有很多视频数据库已经标注了它们的质量。这篇文章提到了 3 个公共的 UGC 视频质量评估数据集,讲者在其产品中使用了其中的 2 个。论文使用从视频中提取不同的特征,给出了 SROCC、KROCC、PLCC,和 RMSE 分数。

图片
Blind VQA

之后,讲者展示了在用户体验上好的、差的和中等质量的视频。在应用中,必须确保应用于每一个视频的分类必须足够快,以实现直播处理。最终,与视频的帧率相比,可以使用单线程达到 3X-5X 的分类速度。与客户提供的标签相比,达到了 90% 以上的准确度。

图片
视频质量分类示例

这里给出了一些分类错误的例子。左侧的视频是中间质量,但分类为良好质量。其中一些帧的质量相对较差,有相当多的压缩伪影,但总体上是好的。这与时间记忆有关,我们的人类视频系统记住了或特别注意了一些少量的质量较差的帧。因此,需要研究如何将差的分数加权到最后的分数中,以及如何加权不同帧的主观质量的波动。右侧的视频是差的质量,但分类为中间质量。观察发现这个孩子的脸真的很有吸引力,如果视频中有一个主要的脸部区域,人眼视觉系统会对脸部内容给予很大的关注。这里也给出了一篇论文,专门提到了这两个方面,即如何将人眼视觉系统和视频主观质量分类联系起来。

图片
视频质量分类-人眼视觉影响

预处理

上传到云端的视频已经有大量的压缩伪影,可以应用大量的增强手段,如锐化或基于区域的处理。这里给出了一些消除压缩伪影的例子,分别使用传统的图像处理方法和深度学习方法。

图片
图像处理方法去压缩伪影
图片
深度学习方法去压缩伪影

如果已经有一些视频被归类为中间质量,也被标示为潜在的最多观看的视频。例如,在 YouTube 上,部分视频贡献了 95% 以上的浏览量。对于这些视频来说,值得花更多的计算资源来增强视频。下图是一些增强的结果。

图片
屏幕内容增强
图片
游戏内容增强

这里列出了工作参考的主要论文。LIVE 实验室网站上也有很多质量评估的资源,包括相当多的结果,论文和开源代码。

图片
主要参考资源

转码

我们可以应用基于区域和基于块的转码策略,如果一些区域是比较重要的,可以分配更多的比特。讲者将CAE方案应用在 AV1 上,并给出一些结果。对 AV1 的介绍暂且跳过。

图片
ROI 区域智能优化
图片
AOM/AV1:旅程和使命
图片
AOM/AV1:软硬件解码器生态

这里给出 Aurora1 AV1 编码器应用于直播流媒体的结果。所有的客户视频都是利用 x264 编码器进行原始编码,这里对 1080P 视频进行了比较,给出了不同的客观质量分数。在 VMAF 指标下,相比于 x264,Aurora1 AV1 可以达到 28.65% 的码率节省。在应用了视频分类、预处理和增强技术之后,可以节省 44.62% 的码率。

在复杂度方面,Aurora1 AV1 增加了 13.09% 的编码复杂度,而加了增强阶段的 Aurora1+只增加了 7% 的复杂度,但是额外得到了 19.85% 的码率节省。

图片
Aurora1 AV1 对比 x264,直播场景

来源:Global Video Tech Meetup
主讲人:Zoe Liu
内容整理:冯冬辉

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

  • B站:自研点直播转码核心

    1. 背景 视频转码是将视频文件经过解封装、解码、滤镜处理、编码、封装从而转换为另一个视频文件的过程,B站每天都有大量的视频原片上传后经过转码系统转换为多个不同分辨率。转换后的视频…

    2024年7月26日
  • 基于运动矢量重用的转码优化

    编者按:视频转码是视频相关领域中最重要的业务,需要消耗大量的算力。转码有解码和编码两个阶段,在编码中,运动矢量计算是消耗CPU算力最多的部分,因此要考虑如何减少大量的计算并提高图像…

    2023年2月14日
  • 视频编码与视频转码有什么区别?

    在当今的数字时代,视频已成为我们在线参与的一个重要方面,占据了社交媒体和流媒体平台。然而,视频的创建和分发需要技术程序,特别是视频编码和转码。 尽管视频编码和转码看似相似,但它们在…

    2023年7月13日
  • 分布式集群转码系统的设计与实现

    视音频转码系统大量应用在广播电视的应用系统中,尤其在 采、编、播、存等各个环节,关系到广播电视的生产和播出,其重要性不言而喻。随着开源技术的普及以及开发工具、开发语言的良好集成性和…

    2023年6月5日
  • 2023 年视频转码预测

    视频转码是每个视频传输和流媒体服务的关键部分,对服务质量、体验质量和视频流媒体成本有巨大影响。  世界大部分地区的行业都在使用已有数十年历史的 H.264/AVC,竞争者包括 H….

    2023年1月28日
  • 什么是视频转码?为什么视频转码对视频流至关重要

    一个普遍的事实是,几乎 80% 的互联网流量由视频组成,因此,视频内容提供商有责任以更高效、更环保的方式进行流式传输。提高流媒体效率的很大一部分努力归结为更好地压缩或转码视频,并在…

    2023年1月4日

发表回复

登录后才能评论