视频编解码技术逐渐“内卷”，人工智能+视频编解码解锁新突破

随着通信和互联网技术的进步，特别是智能手机的普及以及 4G、5G 移动通信技术的成熟与发展，语音视频聊天、视频游戏等多样化的休闲娱乐方式层出不穷，普通用户对语音与视频的消费需求也在不断增长。日益增长的语音和视频消费需求对未来的语音和视频编解码器提出了更高的要求。

什么是视频编解码器？

视频编解码器，简单来说就是用于压缩或解压数字视频的软件或硬件，压缩和改变视频内容格式的过程，将模拟源更改为数字源。音频和视频都需要可定制的压缩方法。只要是数字视频，就是需要经过视频编码器信号传输，更好地为视频实时传播提供技术实现。

视频是连续的图像序列，由连续的帧构成，一帧即为一幅图像，图像帧以一定的速率播放形成连续的视频。而连续帧之间的高相似度导致了大量的信息重复冗余，因此我们可以通过视频编解码技术用尽量少的数字信息来表示原始的视频，并在解码端恢复视频图像后，从人眼的视觉暂留效应角度来看，尽量接近原始图像。

主流视频编码技术

近30年来，视频编码标准正遵循其自身的“摩尔定律”不断演进。ITU-T和ISO/IEC MPEG两大重头国际视频标准组织不断推动视频编码标准的迭代，每次迭代压缩率相比上一代实现翻倍，编码效率的提升触发了很多视频产业界的技术变革和创新。

国际上制定视频编解码标准的组织主要是ITU-T和ISO/IEC。ITU-T主要制定如H.261、H.262、H.263、H.264标准，面向实时视频通信应用；ISO/IEC主要制定MPEG-1、MPEG-流应用。同时两个组织ITU&MPEG通过进一步合作输出H.262/MPEG-2、H.264/AVC、H.265/HEVC、H.266/VCC等标准。国内制定视频编解码标准的组织主要是AVS和SVAC。互联网领域本身存在巨量的视频分享需求，而HEVC等标准又面临昂贵的使用费，因此国际互联网各大企业联合成立开源媒体联盟，推出了新的视频编解码标准，如VP9/AV1。

AI+视频编码技术带来的革新

日益增长的语音和视频消费需求对未来的语音和视频编解码器提出了更高的要求。在这种趋势下，基于 AI 的编解码开始入场，并陆续出现了以神经网络、机器学习为主导的编解码技术，展现出了媲美传统编解码器的压缩性能。

AI编解码技术从2015年开始兴起，在短时间内得到可观发展，在性能上，基于 AI 的端到端压缩技术已经初步具备了与传统的 H.265 和 H.266相比较的能力。基于 AI 的端到端编码器，易于升级和部署，能够针对特定的数据分布进行优化，具备明显优势。

然而，从近期来看，基于 AI 的编解码技术还有许多挑战未解决。首先，从最终的商用落地的诉求来讲，如果基于 AI 的编解码器，能够放在通用的 AI 加速器，而不是专用处理器上面，那么如何控制复杂度、利用并行度以及很好地实现低位定点，这些都是非常大的挑战。其次，对于图像而言，通过 GAN 的方式已经能够很好地生成比特流中没有的视觉细节，但针对视频流却没有一个特别好的方法。在生成视频流细节的时候需要考虑：帧间或时域上能不能保持连续性和稳定性。此外，在这个角度上，如何在一个统一客观的感知质量测度上，进行基于 GAN 的模型训练和生成仍需努力。最后，针对视频而言，AI 编解码器与 H.265/H.266 相比，仍要在率失真方面实现大幅度的进步，这样最终可以使基于 AI 的编解码器实现广泛的应用。长远来看，人工智能+视频编解码技术仍有很大的发展空间。

结语

随着视频编解码技术的发展，视频显示分辨率步入8k时代，未来甚至到16k，在保证图像质量的情况下，传输带宽和视频存储空间之间始终存在平衡需求，随着硬件层面计算芯片技术和软件层面深度学习技术发展，基于人工智能深度学习算法的跨界，神经网络智能编码技术的探求，我们相信基于视频图像的智能化应用将如火如荼发展，编解码技术的发展不仅需要满足越来越高的用户体验需求，同时也会按照行业场景应用实现自主创新。

本文参考：

1、https://www.jiqizhixin.com/articles/2021-10-05-3

2、https://mp.weixin.qq.com/s/9DpdPtzmLCZ2B2cJ1dhJvQ

图源网络，如有侵权，请联系删除。