IEEE ICIP 是历史悠久的图像处理技术盛会。本工作是上海交通大学图像所 MediaLab 在 ICIP 2024的技术成果介绍。近期,在人物交互场景研究中,新视角合成(NVS)受到了越来越多的关注。现有的人物交互数据集主要由视角有限的静态数据组成,仅提供 RGB 图像或视频,且大多只包含单人和物体之间的交互。此外,这些数据集光照环境复杂,同步性差且分辨率低,阻碍了高质量人物交互研究的开展。在本文中,我们引入了一个新的人物交互数据集,该数据集包含38组30视角的多人或单人 RGB-D 视频序列,并附带摄像机参数、前景掩码、SMPL模型、点云和网格文件。视频序列由30台 Kinect Azure 摄像机捕捉,这些摄像机均匀地围绕场景布置,每台摄像机拍摄4K分辨率、25帧每秒(FPS)的画面,视频时长为1至19秒。同时,我们在此数据集上评估了一些最新的神经视点合成(NVS)模型,以建立 NVS 基准。我们希望我们的工作能够激发人物交互研究的进一步发展。
题目:A New People-Object Interaction Dataset and NVS Benchmarks
作者:Shuai Guo, Houqiang, Zhong, Qiuwen Wang, Ziyu Chen, Yijie Gao, Jiajing Yuan, Chenyu Zhang, Rong Xie, and Li Song.
来源:ICIP 2024
论文链接:https://arxiv.org/abs/2409.12980
数据集链接:https://github.com/sjtu-medialab/People-Ojbect-Interaction-Dataset
内容整理:郭帅
引言
人物交互是指单个或多个人与物体之间的互动,这是日常生活中常见的场景类型。在近年来,针对人物交互的新视角合成(NVS)研究受到了广泛关注。NVS 能够合成在三维场景中任意选定位置的虚拟视角,在增强现实、虚拟现实或真实场景中的自由视角导航等新兴应用领域得到了广泛使用。生成的虚拟视角的质量对于给观众提供真实感至关重要。人物交互场景中的 NVS 对于动作分析、视觉场景问答和视频理解等高级视觉任务来说是必要的,主要挑战在于复杂的交互模式和严重的遮挡问题。然而,现有的人物交互数据集主要由有限视角的静态数据组成,仅提供RGB图像或视频,大多数包含单个人与物体之间的互动。大多数现有数据集存在复杂的照明环境、较差的同步性和低分辨率问题。其中一些数据集只关注手-物交互。这些问题使得进行高质量动态交互研究变得困难,并阻碍了针对人物交互NVS研究挑战的进展。
为了解决上述问题并帮助研究人员应对人物交互NVS研究的挑战,本文介绍了一个提供更丰富先验信息、更多视角和更高质量视频序列的人物交互数据集。我们的人物交互数据集包含了38个单个人或多个人与物体互动的 RGB-D视频序列。我们还提供了相应的相机参数、前景掩码、SMPL 模型、点云和 Mesh 网格文件。RGB-D 视频是由30个相同的 Kinect Azures 均匀围绕场景捕获的。每个视频序列是 4K,25 FPS,持续1~19秒。前景掩码、点云、SMPL模型和网格文件是通过算法后处理获得的。多个视角、深度序列、前景掩码、点云、SMPL模型和网格文件可以用作人物交互模型的训练数据或先验输入。它们提供了丰富的先验信息,可以有效刻画不同层次的人物交互模式,并减轻由复杂重叠引起的重建困难。同时,我们在数据集上使用一些最先进(SOTA)的NVS方法进行了实验,以获得 NVS 基准。本文的主要贡献包括:1)一个新的多路同步RGB-D人物交互数据集,及其相应的相机参数、前景掩码、SMPL模型和一些点云、网格文件;2)在我们数据集上利用SOTA方法构建的NVS基准。
多路同步RGB-D人物交互数据集
视频序列采集
如图1所示,我们构建了一个新的同步视频采集系统,由5台采集小车和1个系统控制端组成。这5个采集小车均匀分布在直径为2.5米的圆形舞台周围。每台小车配备1台采集计算机和6台 Kinect Azure,以3行2列的方式排列,每行间隔大约0.65米,每列间隔大约0.8米。属一小车的6台 Kinect Azures 是以串联方式连接的。在采集视频序列的过程中,控制端向采集小车发送同步信号。然后采集小车向它们所属的 Kinect Azure 发送同步信号,确保所有30台 Kinect Azure 同步开机和采集。RGB图和深度图像均以4K分辨率(3840×2160)采集。深度图像通过 Azure Kinect SDK dw 与RGB图像对齐。
由于相机呈环形排列,任意位置摆放的标定板都无法被30台Kinect Azure同时拍摄到,因此我们采用分批标定然后向同一坐标系进行转换的做法来完成相机参数标定。随后,我们邀请一些志愿者在圆形舞台上进行人物交互视频演示,并使用采集系统拍摄。交互的物体是来自日常生活的常见物品,如笔记本电脑、桌子、椅子、行李箱、手机、水杯、背包等等。然后用HEVC编码将所有捕捉结果压缩为4K、25 FPS的视频序列。为了方便研究人员进行进一步的研究,我们的数据集提供了空场景的视频序列以及相机校准。视频序列详细内容如表1所示。
后处理
为了获得前景掩码、点云、网格文件和SMPL模型,我们对采集的视频序列进行了后处理。图2展示了我们数据集中的一些RGB-D帧及其对应的前景掩码、点云、网格文件和SMPL模型。我们使用的后处理算法细节如下。
前景掩码:我们使用了Lin等人提出的实时高分辨率背景抠图方法以及采集到的空场景来获取前景掩码。实时高分辨率背景抠图方法采用了一个基础网络来计算低分辨率结果,并通过第二个网络在高分辨率下对选择的区域进行精细化处理。该方法能够有效地只在高分辨率下精细化易出错的区域,要求额外捕捉一个背景帧,用于恢复alpha通道和前景层。
点云:我们利用摄像机参数和RGB-D序列,对于每一帧,首先将每个视角的像素映射到世界坐标系中,以获得每个视角的稀疏点云。然后使用迭代最近点(ICP)算法来减少匹配误差。随后我们去除由前向-后向一致性确定的每个视角的重叠区域。最后使用步阶不连续性约束(SDC)滤波器去除噪声、缺失像素和不稳定像素,完成点云构建。
网格文件:在点云构建完成后,通过光线投射提取隐式存储的等值面。光线从起点投射到终点,沿其路径与一系列体素相交。在光线前进的过程中,评估其穿过的每个体素的截断符号距离函数(TSDF),以确定表面界面或零交点,即TSDF值在前进方向上从正变负的位置。然后,通过连接这些相邻的零交点来构建网格。
SMPL模型:我们使用MMHuman3D库来提取SMPL模型。MMHuman3D是一个基于PyTorch的开源代码库,旨在计算机视觉和计算机图形学中使用3D人体参数化模型。MMHuman3D重新实现了多种流行的方法,使用户可以通过一行代码复现最新的研究成果。它提供了一个演示脚本,可以从输入的图像或视频中估算单人或多人的SMPL参数。我们使用MMHuman3D预训练的模型来获取估算的SMPL模型。
与同类数据集对比
在表2中,我们将我们的数据集与人-物交互研究中常用的几个数据集的重要属性进行了比较。从表中可以看出,我们的数据集是唯一一个多视角、动态同步的4K RGB-D数据集,提供了多人和物体之间的交互。我们还提供了强有力的先验信息,如前景掩码、点云、网格和SMPL模型。高分辨率、高帧率的多视角视频序列对于在人-物交互场景中进行高质量的神经视点合成(NVS)研究非常有利。丰富的先验信息,如前景掩码、点云、网格和SMPL模型,有助于减轻严重遮挡和复杂交互模式的不利影响,从而提高NVS合成的质量和速度,并改善动态NVS、稀疏NVS及其他相关方面的性能。
NVS基准构建
我们在数据集中评估了一些SOTA的NVS模型的性能,包括基于NeRF的NVS方法,如TensoRF、K-Planes,以及基于3D高斯溅射(3DGS)。所有这些方法的结果都是通过公开可访问的代码和标准参数配置获得的。我们使用峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)来评估预测图像的质量。PSNR和SSIM用于评估RGB重建的质量,数值越高越好。LPIPS用于评估图像块之间的相似性,数值越低表示相似性越高。
本文在数据集中精心挑选了三个具有代表性的场景进行测试,分别是场景202312-05105936的第5帧、场景20231204194620的第10帧以及场景20231204201726的第10帧,分别对应场景1、2和3。所有的实验都在同一台服务器上完成,这台服务器搭载了Ubuntu 20.04系统,并配备了一块NVIDIA GeForce RTX 4090显卡和24 GB的显存,确保实验能够顺利进行。在数据集的划分方面,本文在每个场景的30张图片中每间隔8张图片选择一张作为测试图片,其他图片用作训练图片,因此训练集为26张图片,测试集为4张图片。图3和表3展示了SOTA方法在本数据集上的主观表现和客观表现。
总结
本文介绍了一种新的多人人物交互数据集,该数据集包含38组30视角的多人或单人RGB-D视频序列,并辅以相应的摄像机参数、前景掩码、SMPL模型、部分点云和网格文件。每个视频序列均具有4K分辨率、25帧每秒(FPS),时长为1~19秒。所有30个视角均使用Kinect Azure设备在均匀围绕的场景中拍摄。我们还通过使用SOTA NVS模型为我们的数据集提供了NVS基准。希望我们的工作能够激发更多关于人-物交互和NVS研究。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。