本文基于端到端深度视频压缩框架,提出了一种环路多帧预测模块(in-loop frame prediction module),在不额外消耗码率的情况下,对当前帧实现基于多个参考帧的高效预测。
论文标题:Advancing Learned Video Compression with In-loop Frame Prediction
来源:TCSVT 2022
作者:Ren Yang, Radu Timofte, Luc Van Gool
论文链接:https://ieeexplore.ieee.org/document/9950550
内容整理:陈予诺
引言
近年来,端到端的深度学习视频压缩技术越来越受到关注。以往的大部分研究是通过检测和压缩运动向量、与参考帧进行warp来得到预测帧,以解决时间维度上的冗余问题,但它们未能充分利用前序参考帧中的历史信息。为了解决这一问题,本文提出了一种名为 ALVC(Advanced Learned Video Compression)的深度视频压缩模型,它采用了环路多帧预测模块,在不增加额外码率的情况下,ALVC 能够利用多个前序帧的信息进行目标帧的预测。这样生成的预测帧可以作为一个比先前压缩帧更好的参考,从而提升了压缩性能。本文所提出的 in-loop 预测模块作为端到端视频压缩的一个组成部分,与整个框架进行共同优化。此外,本文提出了 recurrent 和 bi-directional 两种环路预测模块,分别用于压缩 P 帧和 B 帧。该项目的源代码已在以下网址公开:https://github.com/RenYang-home/ALVC。
方法
整体框架
P-frame 环路预测模块
上图所示为P帧的预测模块,在IPPP模式的视频压缩中,P-帧以单向方式连续压缩,因此P帧压缩使用的是单向的 Recurrent in-loop Prediction (RecPred) network,RecPred 网络中使用 U-Net 作为特征提取模块,但我们分别将三个 ConvLSTM 层插入到下采样部分、中间层和上采样部分,这使得 RecPred 网络具有循环性,因此它能够利用连续压缩帧中的时间信息。
B-frame 环路预测模块
1. B 帧的定义和递归解码顺序
2. B帧预测模块详细结构
实验
训练
我们使用 Vimeo-90k 数据集作为训练集,我们先对in-loop模块进行初步训练,之后对整个 ALVC 网络进行端到端训练,损失函数为
性能
1. PSNR 性能
上表展示了与 x265 (B-帧) 为 anchor 计算的 PSNR Bjøntegaard Delta 比特率 (BDBR) 性能(越低越好)。从表中可以看出,我们的 ALVC 方法在所有数据集上优于 DVC、HLVC、RLVC、FVC、x265 (LDP) 和 x265 (B-frame)。我们还在 Class C 和 Class D 上击败了 DCVC,我们的 ALVC 方法的平均 BDBR 比 DCVC 好 3.21%。
在将 ALVC 与 HM 16.20 (same GOP) 进行比较时,我们在 Class B 和 Class D 上表现得更好,但平均 BDBR 略差于 HM 16.20,约为 1%。
上图说明,尽管我们在深度学习方法中实现了最先进的性能,但我们的 ALVC 无法赶上 HM 16.20 (default)、VTM 14.1 (same GOP) 和 VTM 14.1 (default) 的性能。
2. MS-SSIM 性能
上表展示了基于 MS-SSIM 的 BDBR 性能,以 x265 (SSIM slowest) 的性能作为 anchor。从这个表可以看出,我们的 ALVC 方法在所有数据集上均优于 DVC、HLVC、RLVC、FVC、x265 (SSIM)、x265 (SSIM slowest)、HM 16.20 (same GOP)、HM 16.20 (default) 和 VTM 14.1 (same GOP)。我们还在类别 B、C 和 D 上优于 DCVC。在 UVG 上我们稍逊于 DCVC,但平均 BDBR 超过 DCVC 8%。
上图表明,在高比特率下,我们在 MS-SSIM 方面明显优于传统编码器,甚至在所有数据集上优于 VTM 14.1 (default)。总之,在深度学习方法中,我们在 MS-SSIM 方面达到了最先进的性能;和传统方法相比,我们的 MS-SSIM 性能与 VTM 14.1 (default) 相当甚至略好。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。