AVS标准解析系列二：AVS3视频编码关键技术

一、概述

上次我们回顾了AVS标准的发展历程及其工作方式与专利政策。2018年3月，AVS工作组正式启动AVS3标准的制定工作，AVS的第三代标准是当前AVS系列音视频标准中最先进的一代标准，基准档次标准于2019年3月正式形成。

相比于上一代视频编码标准，AVS3在块划分结构、参考帧管理、预测、变换等模块都有创新，增加了很多新的编码技术，大幅提升了编码效率。本文将从编码框架中的各个模块对AVS3标准做一个简要介绍。

二、块划分结构

AVS3中采用了基于四叉树、二叉树(BT)、扩展的四叉树(EQT)联合的递归划分结构,划分示意图如图1。最大编码单元CTU可以按四叉树、二叉树或扩展的四叉树结构逐层向下划分为编码单元(CU)，树结构的节点即为最终的编码单元，编码单元是编码的基本单位。每一个编码单元内的预测和变换，分别按预测单元和变换单元为单位进行。帧间预测中，编码单元即为预测单元、变换单元。对帧内的编码单元，AVS3中新增了衍生模式树(DT)。通过衍生模式树，编码单元可水平或垂直地划分为2个或4个预测单元(PU)，并对应着4个变换单元(TU)。除此之外，在帧内还新增了亮色度分离树，对帧内的亮度分量和色度分量使用独立的划分结构树。

三、参考帧管理

在AVS3中引入了更加灵活的RPL(Reference Picture List)的参考帧管理方法，支持 B帧参考图像。基于RPL的B帧使用两个参考帧列表，每个参考帧列表中可以有多个参考帧，同时列表中的参考帧可以来自于前向或后向，大大提升了参考结构的灵活性。基于优化的参考帧管理方法，可以实现基于多假设的前向预测，提升低延时模式下的编码效率。同时，新的RPL机制改进了不被参考的图像的标记和传输方式，使得在出现丢帧的情况下，仍然可以维护正确的解码图像缓冲区，避免出现图像缓冲区错误导致后续帧无法解码的问题。

四、帧内预测

AVS3中沿用了AVS2中的三个特殊帧内预测模式和30个角度预测模式，新增了帧内预测滤波技术(IPF)和色度两步预测模式(TSCPM)。帧内预测滤波是对一定范围内的边界像素使用左边界或上边界参考像素对预测值进行加权滤波，有效减少了预测噪声带来的影响。色度两步预测模式是针对色度分量新增的一种预测模式，通过建立亮度块到色度块的线性预测模型，利用亮度参考边界和色度参考边界信息构建预测模型，并利用亮度块结合线性预测模型完成色度块的预测，这种跨分量的预测方法可以有效地利用分量间的相关性降低分量间的冗余，大幅提升了色度的性能，由于码率分配的影响，也带来了亮度的增益。TSCPM的采样过程如图2所示。

五、帧间预测

针对帧间Skip/Direct模式，AVS3中新增了基于历史的运动矢量候选(HMVP)。HMVP是基于已编码块的信息导出运动矢量，在原有的运动矢量列表基础上进一步填充当前编码块的运动矢量候选列表。图像中结构纹理的相似性并不局限于局部区域，因此可以在更大范围内寻找相似信息。HMVP即是利用非局部相似性的原理获取更多非局部的运动矢量候选。并且只需要保存解码块的运动信息而不需要进行非局部相似性的搜索，HMVP可以在低复杂度情况下大幅提高skip/direct模式的预测性能。除此，AVS3中新增了高级运动矢量表达技术(UMVE)，从运动矢量起始点、偏移方向和偏移距离等多方面对Skip/Direct模式的运动矢量进行更精细的表达。仿射变换运动补偿预测技术(Affine)也被用于AVS3中的Skip、Direct和普通帧间模式。Affine有四参数和六参数模型，利用2个或3个控制点的运动矢量根据仿射变换模型导出当前编码块的运动矢量场。Affine运动模型相对于AVS2中的平移运动模型，可以有效提升具有缩放、旋转、透视和其他不规则运动的视频序列的性能。Affine预测的子块运动场及控制点信息如图4所示。

在运动矢量预测精度方面，AVS3使用了自适应运动矢量精度技术(AMVR)替代了AVS2中的渐进式精度自适应方法。AMVR中有1/4，1/2，1，2，4共5种运动矢量精度候选，可自适应调整运动矢量差值精度。如图5所示，当物体实际运动矢量位置为整像素位置，使用整像素精度就可以使用较少的比特准确表示物体的运动。因此自适应的运动矢量精度可以在更好地接近真实的运动情形下合理分配编码运动矢量的比特。针对Affine技术，也增加了1/16,1/4,1共三种运动矢量精度。除此之外，AVS3中结合运动矢量精度提出了运动矢量精度扩展模式(EMVR)。EMVR对不同的运动矢量精度绑定了HMVP候选，使用对应精度下绑定的HMVP候选扩充普通帧间模式的运动矢量预测候选列表，有效提升了运动估计的准确性且仅需较少的比特代价。

AVS标准解析系列二：AVS3视频编码关键技术 — 图4 多种运动矢量精度的表示

六、变换/量化和熵编码

AVS3相比上一代编码标准，支持更加灵活的变换。针对超高清视频的编码中出现的大编码单元，采用最大为64×64的DCT变换。AVS3也支持二次变换，对使用帧内预测方式进行编码的块，考虑到其残差的特殊统计特性，通过对左上角4×4块的系数进行二次变换，进一步减少了编码冗余，使得变换系数进一步集中。此外，AVS3提出了基于位置的变换技术PBT。PBT考虑编码单元中不同位置的预测残差特性，将一个变换单元四叉树划分为四个单元，对行变换和列变换分别使用DCT8、DST7两种变换核，进一步提升了变换编码的效率，如图6为四个子块的行列变换绑定方式，这种基于位置的绑定方式能有效地适应不同位置帧间残差的分布规律，提升了变换的性能且具有较低的复杂度。

七、环路滤波

AVS3保持了和AVS2相同的滤波技术，包括去块效应滤波、样本偏移补偿和自适应提升滤波。针对AVS2中去块效应滤波强度以及滤波像素的使用，AVS3提出了优化的滤波技术，显著提升了主观质量。

八、并行编码结构

AVS3中提出了以片(patch)划分为单位的并行编码结构，相比AVS2大大提升了可并行性。Patch结合了Slice的独立解码特点，支持将图像按矩形区域进行划分，其中每个矩形小区域均包含整数个CTU。如图7展示了一种将包含17×13个CTU的图像的划分方式，即将图像划分成3行5列，这样划分出的矩形小区域之间可并行处理，大大提升了编解码的并行性。在AVS3中，支持恒定分片和非恒定分片。Patch划分的提出，可大大提升编解码处理的并行粒度，针对未来超高清视频应用，可充分利用多核并行计算资源，降低帧解码的处理延时，提升用户体验。