下一代 AOM 视频编码标准研究

开放媒体联盟 (Alliance for Open Media, AOM) 于 2018 年发布了 AV1 视频编码标准,较之前的 VP9、HEVC 有明显性能增益。由于其开源、免版权费的特点,AV1 在 YouTube、Netflix 等多个主流平台上得到了广泛应用。为了进一步提高编码性能,适应丰富的应用需求,AOM 于 2020 年底开始了下一代视频编码器 (AV2) 的研发工作。本视频介绍了标准制定过程中 AOM 各小组的分工,以及 AV2 编码器的通用测试条件和一些编码工具。

在 AV2 编码标准的制定中,AOM 各小组分工如下:

  • 编码工作组 (Codec Working Group):
    • 负责审阅和讨论视频编码提案;
    • 以 Libaom 的代码为基础进行开发
  • 测试小组 (Testing Sub-Group):
    • 定义通用测试条件 (Common Test Conditions, CTC),用于编码器性能和复杂度的测试;
    • 实现测试工具和数据分析工具;
    • 跟踪测试提案内容,并分析编码器中各工具之间的兼容性
  • 软件实现工作组 (Software Implementation Working Group):
    • 实现产品级的编码软件,可用于实际部署和应用;
    • 目前主要工作是以 SVT-AV1 为基础,进一步优化 AV1 的软件实现。
  • 焦点小组 (Focus Groups):
    • 收集各个模块的需求,用于开发建议;
    • 评估和比较相似的提案
  • 体视工作族 (Volumetric Visual Media WG):
    • 主要进行沉浸式视频 (AR, VR 等) 的编码研究

AOM 通用测试条件(CTC)

CTC 序列

AOM 通用测试序列下载 : https://media.xiph.org/video/aomctc/test_set/

AOM 通用测试序列的主要类别如图 1 所示,涵盖了可能遇到的各种视频类型:

  • 视频分辨率从 SD 到 4K 不等,支持 8-bit 和 10-bit 位深;
  • 包括丰富类别的视频场景,如自然视频、合成视频 (动画、游戏)、屏幕内容,静止图像等;
  • 引入 2K 和 4K 的 HDR 序列以及用户生成内容 (UGC) 作为可选项;

值得注意的是,这是 UGC 视频首次被引入到标准测试序列中,这类视频主要来源于社区网络、视频软件、博客和播客等,用户上传视频后,平台将其转码并分发。UGC 视频一般时长很短,场景固定,质量良莠不齐,且已经过初次处理,具有明显人工痕迹。

图片
图1. AOM CTC 序列类别

CTC 编码配置

下一代标准的编码配置有如下几种:

  • 全帧内 (All Intra and Still Image):
    • 用于视频关键帧和静止图像的编码;
    • 将所有视频的前 30 帧编码为 I 帧
  • 低延时 (Low Delay):
    • 用于低延时场景,如视频会议、实时通信等;
    • 所有视频的前 130 帧中,只有第一帧编码为 I 帧,其余均编码为无后向参考的 P 帧
  • 随机接入 (Random Access):
    • 用于高延时容忍场景,如点播 (VoD) 等;
    • 所有视频的前 130 帧 (2个 GOP) 按照有后向参考编码
  • 自适应流 (Adaptive Streaming):
    • 用于流媒体传输场景;
    • 采用类似于 RA 的编码方式;
    • A1 class 中的 4K 序列被下采样为 5 种不同的分辨率

与之前各个编码标准不同之处在于,这里新引入了 AS 编码模式,它可以看作是 RA 模式针对流媒体场景的设定。A1 class 的视频经下采样后,其中每个序列都有 6 种分辨率版本,对每种分辨率的视频分别用 6 种不同 QP 编码 (以 RA 模式)。下采样视频经过编解码后,会被上采样回 4K 的分辨率,在进行质量测试时,仍与原始的 4K 序列进行比较。因此,AS 模式可以在多种分辨率和多个码率段对编码工具进行评估,与实际场景非常相近。

QP 和 GOP 取值

CQP 编码模式下,有 6 种 QP 值可供选择:

  • 全帧内 (All Intra) : [85, 110, 135, 60, 85, 210]
  • 静止图像 (Still Image) : [60, 85, 110, 135, 160, 185]
  • 其他配置 : [110, 135, 160, 185, 210, 235]

RA 和 AS 模式的 GOP 结构如图 2 所示,两个关键帧之间相距 65 帧,Mini GOP 的距离为 16 帧。参考层次共有 5 层,选用的 QP 之用于最高层的帧,其他层的 Qindex 由编码器自动设置 (加上一个固定的 offset 值)。

图片
图2. GOP 结构

质量和复杂度评价

1. 质量指标

  • 使用 Netflix 的 “VMAF tool” 平台计算 PSNR-Y/U/V, SSIM-Y, MS-SSIM-Y, VMAF, VMAF-NEG, PSNR HVS, DE2000, APSNR-Y/U/V 等指标;
  • 用于检测条带失真的 CAMBI 指标仍在设计中;
  • “–aom_ctc v1.0” 参数可以制定质量评价指标
  1. 编解码器的复杂度评价
  • 使用内置的时间工具来统计系统时间和用户时间;
  • 使用内置的性能工具来统计指令数量;
  • 许多提案方对提出的编码工具进行基于 C 和 SIMD 的优化,以最大化性能和复杂度提升的比值;
  • 对于基于机器学习的编码工具,如何进行复杂度估计仍在讨论中

2. 熵编码 / 熵解码的吞吐测试

  • 使用加权的符号数比特数值来衡量对硬件实现的吞吐影响。

部分编码工具

在这部分,主讲人对 AV2 已有的一些编码工具进行简要介绍。

扩展量化

1. 目前 AV1 量化的不足

  • 对于 8/10/12 bit 位深的视频,无论是 AC 分量还是 DC 分量,均使用 6 个查找表来定义 Qindex 和 Qstep 之间的映射,没有明确的公式来规定 Qstep 的取值;
  • AV1 能取到的码率范围比 HEVC 要小:最高码率点相近,然而 AV1 能取到的最低码率值比 HEVC 的高 30% 左右

2. AV2 的扩展量化改进

  • 使用指数函数来清晰定义 Qindex 和 Qstep 之间的映射关系,移除查找表来简化硬件实现;
  • 10/12 bit 位深视频的 Qindex offset 值是基于 8 bit 位深视频定义的;
  • 提升了最大的 Qstep 值,进而降低可达到的最低码率,扩展后的码率范围与 VVC 相近;
  • 允许在序列/帧级对 DC/AC 分量和色度分量的 QP offset 进行指定;
  • 可以在 RA、LD、AI 模式下分别带来 0.6%、1.1%、0.4% 的性能增益

扩展的递归分割 (ERP)

在 AV1 中,只有四叉树划分是可以递归进行的,在 AV2 的设计中对1其进行扩展 (Extended Recursive Partition, ERP):

  • 只允许进行二叉和三叉划分,并且所有的划分都能递归进行;
  • 允许的最大宽高比为 1:4
图片
图3. AV1 的递归划分
图片
图4. 扩展的递归划分

该方案可在 AI、RA、LD 编码模式下分别带来 2.5%、3.4% 和 3.9% 的性能增益,针对复杂度降低的进一步改进仍在讨论中。

亮度-色度的半解耦划分 (SDP)

在 AV1 中,色度的块划分方式是由对应区域的亮度划分决定的,如果亮度和色度的纹理信息类似,则这种共享机制可以降低复杂度;而如果二者的纹理特征不同 (如图5所示),则分别划分的效果更好,因此提出了”半解耦划分” (Semi-Decoupled Partition, SDP) 的方式。

在 SDP 模式下,亮度和色度分量在某个规定的划分深度 (“shared_depth”) 之前,具有相同的划分方式;而当继续往下划分时,二者可以使用不同的划分方式。该方法可以分别在 AI、RA、LD 模式下带来 2.9%、0.75% 和 0.6% 的性能增益。

图片
图5. 亮度-色度划分模式与纹理关系

基于光流的 TMVP 修正

在该模式下,对于帧间编码块,首先会基于原始 MV 进行运动补偿,以得到参考块 P0、P1。然后对 P0 和 P1 分别在 x 和 y 方向上计算梯度值,根据梯度值得到每个子块更精细的运动信息 (“fine motion”),并用其修正整个块的 MV,重新进行运动补偿,得到合成的参考子块 P0* 和 P1,然后根据 P0 和 P1* 得到最终的预测块。该模式支持单向和双向预测,并且不限制时域距离,示意如图 6 所示。通过使用这样的两轮运动补偿,可以在 RA 模式下带来约 2% 的性能增益。

图片
图6. 基于光流的 TMVP 修正 (Optical Flow Based TMVP Refiner)

来源:MHV 2022
主讲:Ryan Lei
内容整理:赵研

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(1)

相关推荐

发表回复

登录后才能评论