尽管视频数据可用性高、内容丰富,但其高维性对视频研究提出了挑战。最近的进展已经探索了使用神经网络对视频进行隐式表示,并在视频压缩和增强等应用中展示了强大的性能。然而,延长的编码时间仍然是视频隐式神经表示 (INR) 的持续挑战。本文专注于提高隐式表示中的视频编码和解码速度。本文引入了两个关键组件:NeRV-Enc,一个基于变压器的超网络,用于快速编码;NeRV-Dec,一个并行解码器,用于高效的视频加载。NeRV-Enc 通过消除基于梯度的优化实现了令人印象深刻的 104 倍加速。同时,NeRV-Dec 简化了视频解码,加载速度比传统编解码器快 11 倍,并且超过了预解码视频的 RAM 加载(速度快 2.5 倍,尺寸小 65 倍)。
来源:ECCV 2024
题目:Fast Encoding and Decoding for Implicit Video Representation
作者: Hao Chen, Saining Xie, Ser-Nam Lim, Abhinav Shrivastava
原文链接:https://arxiv.org/abs/2409.19429
内容整理:刘潮磊
引言
研究问题:
- 如何加快NeRV的编解码速度
SOTA 工作与所属团队:
- NeRV: Neural Representations for Videos-NeurIPS 2021
- TransINR: Transformers as Meta-learners for Implicit Neural Representations-ECCV 2022
- GINR: Generalizable Implicit Neural Representations via Instance Pattern Composers-CVPR 2023
动机:
- NeRV训练比较慢,泛化性也差
相较于NeRV贡献/优势:
- encoding速度快(1e4x):将NeRV的过拟合训练方式改变为用hyper-network处理图像,直接得到NeRV网络参数,训练速度快
- decoding速度快(8.9x):采用并行化处理,同时解码几个视频
相较于TransINR贡献/优势:
- 在视频上做的
- image-wise
- layer-adaptive weight modulation
方法
总体框架

HyperNet:
- 处理输入视频,生成MLP的网络参数
MLP:
- 对于输入帧数编号,生成相应的视频帧
和GINR相比

- 都是采用一个超网络生成后续主网络的网络参数
- GINR是逐像素的,而本文的网络是逐帧的
- GINR对图像、音频、3D视角处理,本文对视频处理
HyperNet的输出

Video-agnostic:
- 用全数据集优化得到的参数
Video-specific :
- 对特定视频优化得到的参数
实验设计与验证
实验设置
数据集:
- Train:Vimeo-90K
- Evaluate :Kodak、CLIC2020 test dataset、Tecnick
训练细节:
- Image crops:256×256
- Batch size:16
- MSE作为失真指标
实验结果
Kodak数据集结果

在高分辨率图像上的效果

- 用COCO 2017的256×256/384×384 image crops微调
- 在高分辨率数据集Tecnick上有明显的提升
模型复杂度和运行时间:
各种复杂度优化策略的效果:

模型参数量和计算复杂度

编码和解码的时间

主观质量:

结论
本文介绍了 NeRV-Enc,这是一种超网络,它通过为 NeRV 模型生成权重来提高编码速度。本文的研究结果表明,NeRV-Enc 显著加快了编码过程,与使用基于梯度的优化的传统 NeRV 训练相比,速度提高了 104 倍。此外,本文还介绍了 NeRV-Dec,这是一种并行视频解码器,其速度比传统编解码器快 11 倍,从 RAM 加载预解码视频的速度快 2.5 倍。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。