AVS3 8K超高清音视频编解码“中国标准”

写在前面：19世纪70年代，人类历史上第一个“视频”和第一条音频诞生，由此，人类正式进入了音视频时代。20世纪下半叶，视频的应用越来越广泛，视频编解码技术的诞生和发展，致力于让视频的呈现越来越接近人眼可以感受的真实世界，让画面越来越精细流畅真实，色彩更精准更丰富。AVS3是我国自主知识产权的，全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准。该领先技术被咪咕视频应用到了卡塔尔世界杯的赛事直播中，这是AVS3标准在移动端直播场景首次规模化应用。

2022年11月14日，中国移动咪咕公司首发AVS3移动端规模化商用版本咪咕视频最新版本，支持200+款手机终端，中国移动咪咕上线“睛彩视界”独家视角，通过国家自主的AVS3、Audio Vivid/AVS3-P3编解码标准为用户带来“视觉+听觉”的全方位超高清沉浸式体验。这一期我们把目光聚焦在AVS3，了解一下它背后的关键技术。

AVS（Audio Video coding Standard，音视频编码标准）是我国全自主知识产权的音视频编解码标准，是全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准。其已被正式纳入国际数字视频广播组织（DVB）核心规范。AVS突破难题技术,解决了我国自主音视频标准的缺失问题,对完成我国AVS3+5G+8K产业发展领先全球的部署意义重大。

在2022年北京冬奥会及残奥会期间，咪咕公司实现了AVS3标准在移动端直播场景首次应用及落地。2022卡塔尔世界杯，中国移动咪咕携手AVS产业联盟、北京大学、上海交通大学、当虹科技等行业伙伴，将AVS3视频、音频标准首次在移动端直播场景规模化商用，是AVS3标准在北京冬奥会实现移动端直播应用后的重要应用升级，推动AVS3标准进入“移动端规模化商用”时代。

研发团队进行了手机小屏足球场景的针对性编码优化：在小屏1080p分辨率下，缩小块划分大小；对运动和边缘场景，增加划分复杂度，提升小屏分辨率下细节还原度和画面整体清晰度;确保流畅传输的同时，提升画面质量，画质质量VMAF分数提升10%左右，实现了编码效率和编码质量的有效平衡。

背景篇

概述

随着5G技术的普及和终端设备显示能力的进一步提升，消费者对于“真实”“沉浸”的超高清音视频体验的需求越来越强烈。然而现阶段业界常用的ITU-T H.26x系列视频编码标准专利许可政策比较苛刻，AVS标准应运而生，旨在打破国际专利对我国音视频产业发展的制约。AVS工作组是由原信息产业部科技司批准成立的标准组织，目前已经运行19年，完成了三代AVS标准的制定，AVS3是全球首个推出使用的面向8K及5G产业应用的音视频信源编码标准，对加速AVS3与5G新媒体的融合发展、完成我国AVS3+5G+8K产业发展领先全球的部署意义重大。

AVS的发展历程

数字音视频编解码技术标准工作组（简称AVS工作组）由国家原信息产业部科学技术司于2002年6月批准成立。自2002年成立以来，AVS工作组制定了一系列视频编码标准，即AVS1、AVS+、AVS2和AVS3，每一代标准都会较前一代有至少50%的性能提升。

AVS1指第一代AVS标准，标准制订起始于2002年，指系列国家标准《信息技术先进音视频编码》，国家标准代号GB/T 20090。该标准制定起始于2002年，于2006年2月颁布，规定了多种比特率、分辨率和质量的视频压缩方法和解码过程，适用于数字电视广播、交互式存储媒体、直播卫星视频业务、多媒体邮件、分组网络的多媒体业务、实时通信业务、远程视频监控等应用。性能与同期国际标准MPEG-2相当。

AVS+是针对广电应用制定《广播电视先进音视频编解码第1部分：视频》行业标准，标准号为GY/T 257.1-2012，简称AVS+。该标准于2012年7月获批成为广电行标，性能与同期的MPEG-4 AVC/H.264相当。

AVS2指第二代AVS标准，指系列国家标准《信息技术高效多媒体编码》，国家标准代号GB/T 33475，是面向超高清电视节目传输，引领未来五到十年数字媒体产业的发展。该标准于2016年5月被颁布为广电行标，2016年的12月30日被颁布为国家标准，压缩效率与国际标准H.265/HEVC相当，在全I帧编码以及监控场景编码中性能优于HEVC。在产业化方面，AVS2视频标准全面应用于IPTV和广东省4K超高清，解码芯片已由华为海思、晨星（Mstar）等研发并推向市场，广播级AVS2超高清实时编码器由深圳优微视觉等公司推向市场。AVS+与AVS2在广电行业的成功应用足以证明AVS标准技术已经步入成熟。AVS产业联盟近百家成员从硬件的芯片、终端集成、系统集成，到软件的算法、视频编辑处理，产品几乎覆盖了产业链的各个环节，为AVS的发展提供了完备的支撑。

AVS3指第三代AVS标准，指系列标准《信息技术智能媒体编码》，AVS3早于H.266完成，第一次实现领跑，率先发布面向8K超高清视频的新一代编码标准，实现产业领先布局。AVS3的编码性能和国际视频编码标准HEVC相比，性能提升接近30%并具备独立的知识产权。AVS3的加入，与VVC、AV1共同形成一个多元化的竞争格局。

我们从2019年加入到AVS工作组，先后提交20余项提案并被采纳为标准。其中《AVS3三维声语音生产系统规范建议及测试方案》对于沉浸式音频的采集制作规范了核心指标，不仅支持典型的应用场景，也可应用于沉浸式社交空间、游戏化互动等元宇宙场景。《CE24-雷达点云slice划分方法》提出的一种基于直方图自适应的点云slice划分方法，并行处理能力强，系统容错性强，编码效率高，可以降低点云数据的存储成本。

技术篇

AVS3编码模块采用了精细的块划分方案、更高效准确的预测算法、适配性更高的变换模式以及效率更高的滤波算法。相比于上一代视频编码标准，AVS3在块划分结构、参考帧管理、预测、变换等模块都有创新，增加了很多新的编码技术，大幅提升了编码效率。以下将简要介绍AVS3编码框架中的八大关键技术。

1. 块划分结构

AVS3中采用了基于四叉树、二叉树(BT)、扩展的四叉树(EQT)联合的递归划分结构,划分示意图如图1。最大编码单元CTU可以按四叉树、二叉树或扩展的四叉树结构逐层向下划分为编码单元(CU)，树结构的节点即为最终的编码单元，编码单元是编码的基本单位。每一个编码单元内的预测和变换，分别按预测单元和变换单元为单位进行。帧间预测中，编码单元即为预测单元、变换单元。对帧内的编码单元，AVS3中新增了衍生模式树(DT)。通过衍生模式树，编码单元可水平或垂直地划分为2个或4个预测单元(PU)，并对应着4个变换单元(TU)。除此之外，在帧内还新增了亮色度分离树，对帧内的亮度分量和色度分量使用独立的划分结构树。

图1 AVS3的QT+BT+EQT联合划分结构

2. 参考帧管理

在AVS3中引入了更加灵活的RPL(Reference Picture List)的参考帧管理方法，支持 B帧参考图像。基于RPL的B帧使用两个参考帧列表，每个参考帧列表中可以有多个参考帧，同时列表中的参考帧可以来自于前向或后向，大大提升了参考结构的灵活性。基于优化的参考帧管理方法，可以实现基于多假设的前向预测，提升低延时模式下的编码效率。同时，新的RPL机制改进了不被参考的图像的标记和传输方式，使得在出现丢帧的情况下，仍然可以维护正确的解码图像缓冲区，避免出现图像缓冲区错误导致后续帧无法解码的问题。

3. 帧内预测

AVS3中沿用了AVS2中的三个特殊帧内预测模式和30个角度预测模式，新增了帧内预测滤波技术(IPF)和色度两步预测模式(TSCPM)。帧内预测滤波是对一定范围内的边界像素使用左边界或上边界参考像素对预测值进行加权滤波，有效减少了预测噪声带来的影响。色度两步预测模式是针对色度分量新增的一种预测模式，通过建立亮度块到色度块的线性预测模型，利用亮度参考边界和色度参考边界信息构建预测模型，并利用亮度块结合线性预测模型完成色度块的预测，这种跨分量的预测方法可以有效地利用分量间的相关性降低分量间的冗余，大幅提升了色度的性能，由于码率分配的影响，也带来了亮度的增益。TSCPM的采样过程如图2所示。

图2 色度跨分量预测的预测过程

4. 帧间预测

针对帧间Skip/Direct模式，AVS3中新增了基于历史的运动矢量候选(HMVP)。HMVP是基于已编码块的信息导出运动矢量，在原有的运动矢量列表基础上进一步填充当前编码块的运动矢量候选列表。图像中结构纹理的相似性并不局限于局部区域，因此可以在更大范围内寻找相似信息。HMVP即是利用非局部相似性的原理获取更多非局部的运动矢量候选。并且只需要保存解码块的运动信息而不需要进行非局部相似性的搜索，HMVP可以在低复杂度情况下大幅提高skip/direct模式的预测性能。除此，AVS3中新增了高级运动矢量表达技术(UMVE)，从运动矢量起始点、偏移方向和偏移距离等多方面对Skip/Direct模式的运动矢量进行更精细的表达。仿射变换运动补偿预测技术(Affine)也被用于AVS3中的Skip、Direct和普通帧间模式。Affine有四参数和六参数模型，利用2个或3个控制点的运动矢量根据仿射变换模型导出当前编码块的运动矢量场。Affine运动模型相对于AVS2中的平移运动模型，可以有效提升具有缩放、旋转、透视和其他不规则运动的视频序列的性能。Affine预测的子块运动场及控制点信息如图3所示。

图3 Affine运动补偿预测中的子块运动场及控制点示意

在运动矢量预测精度方面，AVS3使用了自适应运动矢量精度技术(AMVR)替代了AVS2中的渐进式精度自适应方法。AMVR中有1/4，1/2，1，2，4共5种运动矢量精度候选，可自适应调整运动矢量差值精度。如图4所示，当物体实际运动矢量位置为整像素位置，使用整像素精度就可以使用较少的比特准确表示物体的运动。因此自适应的运动矢量精度可以在更好地接近真实的运动情形下合理分配编码运动矢量的比特。针对Affine技术，也增加了1/16,1/4,1共三种运动矢量精度。除此之外，AVS3中结合运动矢量精度提出了运动矢量精度扩展模式(EMVR)。EMVR对不同的运动矢量精度绑定了HMVP候选，使用对应精度下绑定的HMVP候选扩充普通帧间模式的运动矢量预测候选列表，有效提升了运动估计的准确性且仅需较少的比特代价。

图4 多种运动矢量精度的表示

5. 变换/量化和熵编码

AVS3相比上一代编码标准，支持更加灵活的变换。针对超高清视频的编码中出现的大编码单元，采用最大为64×64的DCT变换。AVS3也支持二次变换，对使用帧内预测方式进行编码的块，考虑到其残差的特殊统计特性，通过对左上角4×4块的系数进行二次变换，进一步减少了编码冗余，使得变换系数进一步集中。此外，AVS3提出了基于位置的变换技术PBT。PBT考虑编码单元中不同位置的预测残差特性，将一个变换单元四叉树划分为四个单元，对行变换和列变换分别使用DCT8、DST7两种变换核，进一步提升了变换编码的效率，如图5为四个子块的行列变换绑定方式，这种基于位置的绑定方式能有效地适应不同位置帧间残差的分布规律，提升了变换的性能且具有较低的复杂度。

AVS3 8K超高清音视频编解码“中国标准” — 图5 PBT中不同位置的行列变换绑定方式

6. 环路滤波

AVS3保持了和AVS2相同的滤波技术，包括去块效应滤波、样本偏移补偿和自适应提升滤波。针对AVS2中去块效应滤波强度以及滤波像素的使用，AVS3提出了优化的滤波技术，显著提升了主观质量。

7. 并行编码结构

AVS3中提出了以片(patch)划分为单位的并行编码结构，相比AVS2大大提升了可并行性。Patch结合了Slice的独立解码特点，支持将图像按矩形区域进行划分，其中每个矩形小区域均包含整数个CTU。如图6展示了一种将包含17×13个CTU的图像的划分方式，即将图像划分成3行5列，这样划分出的矩形小区域之间可并行处理，大大提升了编解码的并行性。在AVS3中，支持恒定分片和非恒定分片。Patch划分的提出，可大大提升编解码处理的并行粒度，针对未来超高清视频应用，可充分利用多核并行计算资源，降低帧解码的处理延时，提升用户体验。

8. 大跨度相关信息编码

AVS3支持大跨度相关信息的编解码，即把系统层额外传输的知识图像作为参考帧，例如在监控视频中将背景帧图像作为知识图像用于参考，并配合知识图像的高效管理，可以提供更加准确的参考，进一步提升压缩效率。与此同时，由于知识图像是额外通过系统层进行传输，与AVS2相比避免了额外传输长期参考帧的代价。

图7 大跨度相关信息编解码中的知识图像示意

测试表明AVS3和AVS2相比，编码性能平均提升23%以上，尤其是针对4K超高清视频，AVS3的编码性能和国际视频编码标准HEVC相比，性能提升接近30%，充分体现了AVS3标准的技术先进性。并且相同码率下，AVS3视频质量明显高于H.265/HEVC。

应用篇

AVS以标准和专利为纽带，打通了技术到产业转移的大循环。大循环的过程为：政府根据产业发展需要提出标准制定要求，科研经费以标准为导向资助目标一致的研发活动，科研成果通过‘专利池’实现快速扩散和利益回报，以企业为主体实现工程化、社会化和规模产业化，政府、企业和科研机构从产业发展中分别获得税收、利润和专利许可费的回报。这种大循环的优势在于能够促进政产学研各司其职、共同协作，从而实现重大系统集成创新。

AVS在国内率先提出“专利池”的管理方式，即把标准涉及的必要专利放入“专利池”，所有企业都可以从“专利池”得到“一站式”许可，从而大大加快技术转移、扩散速度。另外，“AVS专利池”的许可价格远低于国际上同类标准，因此得到广泛认可。“AVS专利池”价格虽低，但由于产品量大面广，专利权人仍可以获得合理回报。这种利用“专利池”分清科研和产业利益的方法，是解决科研和产业“两张皮”问题的一种机制创新。“专利池”机制得到了国家标准管理委员会和国家知识产权局的认可。

AVS在探索重大系统集成创新方面取得了宝贵经验，这套“技术产业大循环”机制激发了政、产、学、研各方面的积极性，有力推动音视频产业链的跨越发展，开启全球数字视听产业的新篇章。

AVS正在形成技术、专利、标准、产品、应用五大环节相连相扣的健康产业链。此次咪咕“致敬经典睛彩再现”专区是对 AVS3 标准应用的进一步拓展，我们相信，AVS3＋体育、AVS3＋移动端、AVS3＋AI在未来的应用会创造出更多可能。

展望篇

2022年，是我国自主数字音视频编解码技术标准（AVS）工作组成立的第20年。经过20年的发展，AVS带动我国音视频实现了技术“从0到1”的原始创新突破，产业从点到面的链式演进，应用从国内到国际的强势突围，地位从跟跑到领跑的跨越式升级。当前，AVS标准已更迭三代，形成了9项国际 IEEE 标准、13项国家标准、3项行业标准、18项团体标准，是我国的高清、4K超高清、8K超高清广播电视频道采用的核心技术标准；AVS标准的核心技术“超高清视频多态基元编解码关键技术”荣获2020年度国家技术发明奖一等奖。世界杯直播采用的AVS3 编解码标准，是全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准，AVS3在2021年中央广播电视总台春节联欢晚会、百城千屏” 公共大屏项目、北京2022年冬奥会、冬残奥会中均有应用。2022年，AVS3在咪咕视频北京冬奥赛事直播中的应用，是AVS3标准在移动端直播场景首次应用落地。本次世界杯期间，AVS3 标准也分别应用于高清1080P，超高清4K，符合目前AVS产业联盟主推的AVS3标准全覆盖行动计划。AVS产业联盟也在积极推动国际化合作，2022年7月，AVS3正式成为DVB标准体系中下一代视频编解码标准之一，这意味着AVS视频标准作为国际组织视频编码的选项，将对支撑全球超高清音视频产业未来发展起到重要意义。通过实践应用，坚定了我们对自主标准的信心，相信随着科研水平的不断提升，越来越多的自主技术会成为社会发展的核心力量。此外，超高清技术在未来不仅能服务于传统广电领域，还将会在智慧医疗、安防、深空探索等领域产生重要影响。因而技术的重点也会从主要面向广播影视应用、关注视频压缩效率的传统视频编码，正在向新兴视频应用领域，以及在未来元宇宙相关领域扩展，和我们日常的生产、生活越来越密不可分。目前，我们团队也正在就元宇宙对超高清的需求做调研，请持续关注我们。

作者：冯亚楠、毕蕾

审核：单华琦

【参考文献】

1.《AVS3 视频编码关键技术及应用》张嘉琪1，雷萌 2，马思伟2, 3（1 中国科学院计算技术研究所，中国北京 100086；2 北京大学，中国北京 100871；3 北京大学信息技术科创中心，中国绍兴 312300）

2. http://www.avs.org.cn/aboutus.asp

3. 《面向8K应用的AVS3——超高清视频编码的开拓与创新》马思伟