隐式视频表示的快速编码和解码 | ECCV 2024

尽管视频数据可用性高、内容丰富,但其高维性对视频研究提出了挑战。最近的进展已经探索了使用神经网络对视频进行隐式表示,并在视频压缩和增强等应用中展示了强大的性能。然而,延长的编码时间仍然是视频隐式神经表示 (INR) 的持续挑战。本文专注于提高隐式表示中的视频编码和解码速度。本文引入了两个关键组件:NeRV-Enc,一个基于变压器的超网络,用于快速编码;NeRV-Dec,一个并行解码器,用于高效的视频加载。NeRV-Enc 通过消除基于梯度的优化实现了令人印象深刻的 104 倍加速。同时,NeRV-Dec 简化了视频解码,加载速度比传统编解码器快 11 倍,并且超过了预解码视频的 RAM 加载(速度快 2.5 倍,尺寸小 65 倍)。

来源:ECCV 2024
题目:Fast Encoding and Decoding for Implicit Video Representation
作者: Hao Chen, Saining Xie, Ser-Nam Lim, Abhinav Shrivastava
原文链接:https://arxiv.org/abs/2409.19429
内容整理:刘潮磊

引言

研究问题:

  • 如何加快NeRV的编解码速度

SOTA 工作与所属团队:

  • NeRV: Neural Representations for Videos-NeurIPS 2021
  • TransINR: Transformers as Meta-learners for Implicit Neural Representations-ECCV 2022
  • GINR: Generalizable Implicit Neural Representations via Instance Pattern Composers-CVPR 2023

动机:

  • NeRV训练比较慢,泛化性也差

相较于NeRV贡献/优势:

  • encoding速度快(1e4x):将NeRV的过拟合训练方式改变为用hyper-network处理图像,直接得到NeRV网络参数,训练速度快
  • decoding速度快(8.9x):采用并行化处理,同时解码几个视频

相较于TransINR贡献/优势:

  • 在视频上做的
  • image-wise
  • layer-adaptive weight modulation

方法

总体框架

隐式视频表示的快速编码和解码 | ECCV 2024
图1

HyperNet:

  • 处理输入视频,生成MLP的网络参数

MLP:

  • 对于输入帧数编号,生成相应的视频帧

和GINR相比

隐式视频表示的快速编码和解码 | ECCV 2024
图2
  • 都是采用一个超网络生成后续主网络的网络参数
  • GINR是逐像素的,而本文的网络是逐帧的
  • GINR对图像、音频、3D视角处理,本文对视频处理

HyperNet的输出

隐式视频表示的快速编码和解码 | ECCV 2024
图3

Video-agnostic:

  • 用全数据集优化得到的参数

Video-specific :

  • 对特定视频优化得到的参数

实验设计与验证

实验设置

数据集:

  • Train:Vimeo-90K
  • Evaluate :Kodak、CLIC2020 test dataset、Tecnick

训练细节:

  • Image crops:256×256
  • Batch size:16
  • MSE作为失真指标

实验结果

Kodak数据集结果

隐式视频表示的快速编码和解码 | ECCV 2024
图4

在高分辨率图像上的效果

隐式视频表示的快速编码和解码 | ECCV 2024
图5
  • 用COCO 2017的256×256/384×384 image crops微调
  • 在高分辨率数据集Tecnick上有明显的提升

模型复杂度和运行时间:

各种复杂度优化策略的效果:

隐式视频表示的快速编码和解码 | ECCV 2024
表1

模型参数量和计算复杂度

隐式视频表示的快速编码和解码 | ECCV 2024
表2

编码和解码的时间

隐式视频表示的快速编码和解码 | ECCV 2024
表3

主观质量:

隐式视频表示的快速编码和解码 | ECCV 2024
图6

结论

本文介绍了 NeRV-Enc,这是一种超网络,它通过为 NeRV 模型生成权重来提高编码速度。本文的研究结果表明,NeRV-Enc 显著加快了编码过程,与使用基于梯度的优化的传统 NeRV 训练相比,速度提高了 104 倍。此外,本文还介绍了 NeRV-Dec,这是一种并行视频解码器,其速度比传统编解码器快 11 倍,从 RAM 加载预解码视频的速度快 2.5 倍。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论