迈向人工智能增强视频编码标准

摘要:本文介绍了人工智能运动图像、音频和数据编码 (MPAI) 的增强视频编码 (EVC) 项目正在进行的活动。该项目研究如何通过使用基于人工智能的对应工具增强或替换特定编码工具来提高现有编解码器的性能。MPEG EVC 编解码器基线配置文件已被选择作为参考,因为它依赖于至少 20 年成熟但压缩效率接近 HEVC 的编码工具。已经开发了一个框架来将编码器/解码器与神经网络连接起来,独立于特定的学习工具包,从而简化了实验。到目前为止,EVC项目已经研究了帧内预测和超分辨率编码工具。标准帧内预测模式已由可学习预测器集成:标准测试条件下的实验表明,帧内编码帧的速率比参考值降低了 4% 以上。人们发现,在解码器端使用超分辨率(一种名为密集残差拉普拉斯网络 (DRLN) 的最先进的深度学习方法)可以提供比参考更高的进一步增益,在标清到高清环境。

迈向人工智能增强视频编码标准

介绍

MPAI 是一个国际性、独立的、非营利性标准开发组织,其使命是开发支持人工智能 (AI) 的数据编码标准。其标准开发流程通过添加明确的知识产权(IPR)许可框架来纠正其他标准化机构的缺点。MPAI 已经开发了人工智能框架 (AIF) 标准 (MPAI-AIF),将 AIF 指定为能够管理人工智能工作流 (AIW) 及其称为人工智能模块 (AIM) 的组件的生命周期的环境。AIW 由其功能定义,即 MPAI 指定的用例、输入和输出数据的语法和语义以及 AIM 拓扑。类似地,AIM 由其功能(例如运动补偿)以及输入和输出数据的语法和语义定义,但不是由 AIM 内部结构定义。通过将其标准基于 AIM,MPAI 标准的实施者可以降低其实施进入开放竞争市场的门槛,因为应用程序实施者可以在开放市场上找到他们需要的 AIM。MPAI-AIF 标准目前正在通过添加访问可信服务的功能进行扩展。

自 MPAI 宣布之日起,人们对人工智能在视频中的应用产生了浓厚的兴趣。如今,视频内​​容占互联网流量的 70% 以上,因此人们对能够应对未来带宽需求视频服务(4K 视频、沉浸式内容等)的高效视频编码技术产生了兴趣。

互联网流媒体或空中或有线空中广播中使用的现有视频编码标准依赖于手工设计的编码工具的巧妙组合,每种工具都对整体编解码器性能做出了自己的贡献。

这可以通过根据同一图片内的相邻数据(称为帧内预测)或根据先前在其他图片中用信号通知的数据(称为帧间预测)来预测图片来实现。帧内预测使用相邻样本的先前解码的样本值来辅助当前样本的预测。

然后通过离散余弦变换对残差信号进行变换,从而允许在变换域中进行低通滤波。系数抽取和随后的量化是压缩过程的有损部分,它允许降低高频率,同时保持所产生的伪影可供人类观察者忍受。

生成的信号经过熵编码,这是一种无损压缩形式。

在编码器内,当启用某种预测时,可以通过反量化和逆变换步骤来重建编码信号,并且通过添加预测信号来重建输入视觉数据。诸如去块滤波器和样本自适应偏移滤波器之类的滤波器用于提高视觉质量。重建的图片被存储在参考图片缓冲器中以供将来参考,以允许利用两个图片之间的相似性。

运动估计过程通过最小化与当前块相比的失真来评估一个或多个候选块。运动补偿使用当前块和最佳块之间的残差,从而创建当前块的预测。帧间预测利用了视觉数据图片之间的冗余。参考图片用于重建要显示的图片,从而减少需要传输或存储的数据量。

然而,由于分辨率和帧速率同时增加,依赖硬件进步对于某些应用来说不再足够。在过去的几年里,研究社区研究了人工智能 (AI) 和机器学习 (ML) 的最新发展,以突破界限并提供行业领先的视频质量和硬件效率。 

基于人工智能的视频编码研究界主要有两种方法:1)一种方法引入基于学习的算法与传统图像视频编解码器相结合,试图用基于人工智能的编码块替代一种编码块;2)端到端(E2E)方法,主要侧重于用基于纯深度学习的压缩替换整个链。

MPAI 中的端到端视频编码小组 (EEV) 和增强视频编码小组 (EVC) 正在分别探索这两个研究方向。本文件详细介绍了 EVC 小组最近的活动。

MPAI-EVC的主要目标是通过集成基于人工智能的编码工具来增强传统视频编解码器的性能。第一步是 MPAI-EVC 证据项目,旨在证明人工智能工具可以将 MPEG-5 EVC 效率提高至少 25%。研究了两种主要工具,即帧内预测增强和超分辨率。EVC 参考模式如图 2 所示。 

与 MPAI-EVC 证据项目并行的活动是 MPAI 端到端视频编码项目 (MPAI-EEV),旨在满足许多人的需求,他们不仅需要促进学术知识的环境,还需要一个开发共识、模型和最终面向标准的端到端视频编码解决方案。MPAI-EEV可以满足中长期视频编码需求。目前,该小组已经对端到端视频编码的最新技术进行了研究,并决定从 OpenDVC 软件开始开发一个用于协作研究的参考模型。

本文的其余部分详细描述了 EVC 项目使用帧内预测和超分辨率工具的活动。

论文地址:https://www.ibc.org/download?ac=21890

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论