隐式视频表示的快速编码和解码 | ECCV 2024

编解码 • 来源：煤矿工厂 • 2025年2月17日上午11:17 • 技术文章

尽管视频数据可用性高、内容丰富，但其高维性对视频研究提出了挑战。最近的进展已经探索了使用神经网络对视频进行隐式表示，并在视频压缩和增强等应用中展示了强大的性能。然而，延长的编码时间仍然是视频隐式神经表示 (INR) 的持续挑战。本文专注于提高隐式表示中的视频编码和解码速度。本文引入了两个关键组件：NeRV-Enc，一个基于变压器的超网络，用于快速编码；NeRV-Dec，一个并行解码器，用于高效的视频加载。NeRV-Enc 通过消除基于梯度的优化实现了令人印象深刻的 104 倍加速。同时，NeRV-Dec 简化了视频解码，加载速度比传统编解码器快 11 倍，并且超过了预解码视频的 RAM 加载（速度快 2.5 倍，尺寸小 65 倍）。

来源：ECCV 2024
题目：Fast Encoding and Decoding for Implicit Video Representation
作者： Hao Chen, Saining Xie, Ser-Nam Lim, Abhinav Shrivastava
原文链接：https://arxiv.org/abs/2409.19429
内容整理：刘潮磊

引言

研究问题：

如何加快NeRV的编解码速度

SOTA 工作与所属团队：

NeRV: Neural Representations for Videos-NeurIPS 2021
TransINR: Transformers as Meta-learners for Implicit Neural Representations-ECCV 2022
GINR: Generalizable Implicit Neural Representations via Instance Pattern Composers-CVPR 2023

动机：

NeRV训练比较慢，泛化性也差

相较于NeRV贡献/优势：

encoding速度快（1e4x）：将NeRV的过拟合训练方式改变为用hyper-network处理图像，直接得到NeRV网络参数，训练速度快
decoding速度快（8.9x）：采用并行化处理，同时解码几个视频

相较于TransINR贡献/优势：

在视频上做的
image-wise
layer-adaptive weight modulation

方法

总体框架

HyperNet：

处理输入视频，生成MLP的网络参数

MLP：

对于输入帧数编号，生成相应的视频帧

和GINR相比

都是采用一个超网络生成后续主网络的网络参数
GINR是逐像素的，而本文的网络是逐帧的
GINR对图像、音频、3D视角处理，本文对视频处理

HyperNet的输出

Video-agnostic：

用全数据集优化得到的参数

Video-specific ：

对特定视频优化得到的参数

实验设计与验证

实验设置

数据集：

Train：Vimeo-90K
Evaluate ：Kodak、CLIC2020 test dataset、Tecnick

训练细节：

Image crops：256×256
Batch size：16
MSE作为失真指标

实验结果

Kodak数据集结果

在高分辨率图像上的效果

用COCO 2017的256×256/384×384 image crops微调
在高分辨率数据集Tecnick上有明显的提升

模型复杂度和运行时间：

各种复杂度优化策略的效果：

模型参数量和计算复杂度

编码和解码的时间

主观质量：

结论

本文介绍了 NeRV-Enc，这是一种超网络，它通过为 NeRV 模型生成权重来提高编码速度。本文的研究结果表明，NeRV-Enc 显著加快了编码过程，与使用基于梯度的优化的传统 NeRV 训练相比，速度提高了 104 倍。此外，本文还介绍了 NeRV-Dec，这是一种并行视频解码器，其速度比传统编解码器快 11 倍，从 RAM 加载预解码视频的速度快 2.5 倍。