目前流行的视频帧插值算法,从连续的输入产生中间帧,通常依赖于复杂的模型结构,具有沉重的参数或大的延迟,阻碍了它们的实时应用。作者设计了一个高效的基于编码器-解码器的网络,称为 IFRNet,用于快速合成中间帧。它首先从给定的输入中提取金字塔特征,然后与一个强大的中间特征一起细化双边中间流场,直到产生所需的输出。逐渐细化的中间特征不仅可以促进中间流的估计,而且可以补偿上下文的细节,使得 IFRNet 不需要额外的合成或细化模块。在各种基准上的实验证明了所提出的方法具有卓越性能和快速推理速度。
作者:Lingtong Kong1, Boyuan Jiang 等
来源:ArXiv
论文题目:IFRNet: Intermediate Feature Refine Network for Efficient Frame Interpolation
论文链接:https://arxiv.org/abs/2205.14620
GuiHub链接:https://github.com/ltkong218/IFRNet
内容整理:李江龙
本文的主要贡献有:
- 设计了一个新颖的 IFRNet,以联合进行中间流估计和中间特征细化,实现高效的视频帧插值。
- 提出了面向任务的流量蒸馏损失和特征空间几何一致性损失分别用于促进 IFRNet 的中间运动估计和中间特征重建。
- 基准测试结果表明,IFRNet 不仅达到了最先进的 VFI 精度,而且还拥有快速的推理速度和轻便的模型尺寸。
方法
模型结构
给定相邻时间实例的两个输入帧 I0 和 I1,合成中间帧 It,其中 0 < t <1 。为了实现这一目标,该模型在第一个提取阶段,从每一帧中提取出金字塔特征,然后以从粗到细的方式逐步细化双边中间流场和重建的中间特征,直到达到金字塔的最高层,获得最终输出。IFRNet 结构如图 1 所示。
金字塔编码器
损失函数
实验结果
性能比较
作者使用 Vimeo90K 训练集来从头训练 IFRNet,并由 AdamW 算法优化。在四个NVIDIA Tesla V100 GPU 上进行了 300 个 epochs ,总批次大小为 24。学习率由 1 x 10-4 按照余弦衰减时间表逐渐衰减到 1 x 10-5。在训练过程中使用数据增强策略来增加样本。对于光流提炼,事先用预先训练好的 LiteFlowNet 提取双边中间流场的伪标签,并在整个训练过程中对帧三联体进行一致的增强操作。
在定量比较中发现,在 Vimeo90K 和 UCF101 测试数据集上,IFRNet large 在 PSNR 和 SSIM 指标上都取得了最佳结果。与此前最优的ABME 相比,参数量大小和指标相近,但速度快了 11.5 倍,这得益于单一编解码器结构。Middlebury 测试中,IFRNet large 表现超过了此前最优的 SoftSplat,虽改进有限,但速度快了2.5倍。
在定性评价可以看出,基于核和基于幻觉的方法不能合成清晰的运动边界,含模糊的伪影。与其他基于流的算法相比,IFRNet 可以忠实地生成纹理细节,这要归功于逐渐细化的中间特征的强大功能。简而言之,IFRNet可以合成令人愉悦的目标帧,带来更舒适的视觉体验。
消融实验
网络结构
分别去除中间特征 IF 和残差 R 合成中间帧。定量分析,发现中间特征可以提供参考锚点信息来促进中间流的估计。逐渐完善的中间特征,包含全局背景信息,可以更好地补偿场景细节。得出结论:中间语境特征的残余补偿对于 IFRNet 实现先进的 VFI 性能是必要的,因为中间流量预测在实质上是不可靠的。总的来说,中间特征极大地提高了 IFRNet 的 VFI 精度,而增加的成本相对较小。
损失函数
图 7 定量比较了所提损失函数不同组合下的 VFI 精度。可以看出,在 Vimeo90K 上增加面向任务的流式蒸馏损失 Ld 提高 0.2dB 的 PSNR。图 8 直观地比较了有无特征空间的几何一致性损失 Lg 的中间特征的平均特征图,表明 Lg 可以对重建的中间特征进行规范化处理,使其在多尺度特征空间中保持更好的几何布局,从而获得更好的 VFI 性能。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。