DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

本文介绍了研究人类如何使用身体接触与世界互动,以实现以人为中心的人工智能的重要性。文中提到,为了建模逼真和物理可行的人与物体互动,推断3D接触至关重要。然而,现有的方法要么专注于2D,要么考虑身体关节而不是表面,使用粗糙的3D身体区域,或者不能推广到野外环境图像。不同的是,这项研究专注于在任意图像中推断人体表面与物体之间的密集3D接触。

论文标题:DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Tripathi_DECO_Dense_Estimation_of_3D_Human-Scene_Contact_In_The_Wild_ICCV_2023_paper.html
项目地址:https://github.com/sha2nkt/deco
引用:Tripathi S, Chatterjee A, Passy J C, et al. DECO: Dense Estimation of 3D Human-Scene Contact In The Wild[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 8001-8013.
整理: 磐怼怼

为了实现这一目标,研究团队首先创建了一个新的数据集,称为DAMON,其中包含了与复杂的人-物体和人-场景接触相关的RGB图像,以及密集的顶点级接触标注。其次,他们训练了一种新的3D接触检测器DECO,该检测器利用了既有的身体部位信息又考虑了场景背景信息,以估计SMPL身体上的顶点级接触。DECO基于这样的观点:即人类观察者通过推理接触的身体部位、它们与场景物体的接近程度以及周围场景背景的信息来识别接触。团队在DAMON数据集以及RICH和BEHAVE数据集上对他们的检测器进行了广泛的评估,并在所有基准测试中明显优于现有的最先进方法。

本文贡献

  • 本文创建了一个大规模数据集DAMON,其中包含了密集的顶点级3D接触标注,适用于野外环境中的人与物体互动图像。
  • 利用DAMON,本文训练了DECO,这是一种新颖的回归模型,它同时关注身体部位和场景元素,以预测身体上的3D接触。DECO在性能上表现优于现有的接触检测器。
  • 将DECO估计的3D接触集成到3D人体姿态和形状估计方法中,这提高了准确性。
  • 相关的数据、模型和代码可以在 https: //deco.is.tue.mpg.de 上找到。

DAMON数据集

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】
DAMON数据集的示例图像和接触标注如图2所示。

接触的类型

物理接触可以分为三类:(1) 场景支持接触(scene-supported contact),即人类由场景中的物体支持;(2) 人体支持接触(human-supported contact),即物体由人类支持;(3) 无支持接触,例如,自身接触和人与人之间的接触。由于已存在用于后两种类型接触的数据集,研究将重点放在前两种类别,即涉及支持的接触,也就是人和物体的接触。

本文方法

图像中的接触区域事实上被遮挡。这使得从野外图像中估计人客体接触成为一个具有挑战性和不适定的问题。本文用一个新的估计器( DEnse COntact estimator, DECO)来解决这个问题,它使用了场景和部分上下文。本文的贡献有两个方面:(1) 为了解释接触的身体部位、人-物体的接近程度和周围的场景上下文,本文使用了一个具有三个分支的新架构,即场景-上下文(Scene Context Branch)、部分-上下文(Part Context Branch)和每个顶点的接触-分类(Contact Branch)分支。(2) 本文使用了一种新的二维像素锚定损失,通过将推断的三维接触接地到二维图像空间来约束求解空间。

模型架构

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

直观地说,接触估计依赖于部分和场景特征,因为它们是互补的。我们使用两个独立的编码器 εs and εp来提取场景特征Fs和身体部分特征Fp。对于编码器主干,我们同时使用基于transformer的SWIN [42]和基于cnn的HRNET [68],通过一个交叉注意模块,整合了场景特征Fs和身体部分特征Fp。为了实现交叉注意,我们在两个分支之间交换了多头注意块中的密钥-值对,得到多头注意后的接触特征Fc为:

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

DECO架构通过分别使用场景解码器Ds和部分解码器Dp对Fs和Fp进行上采样来关注相关特征。

我们对DECO进行端到端训练(图5),其损失为:

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

二维像素锚定损失(PAL)

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

像素锚定损失(PAL)通过在图像平面上呈现接触着色的姿态网格,将3D接触预测投影到图像上。

实验

实验结果

与SOTA的比较:

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

定性评估:

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

消融实验

DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】

结论

该研究的主要目标是在野外环境中的单张图像中检测3D人与物体的接触,而现有方法在这种情景下性能较差。为了实现这一目标,研究团队创建了DAMON数据集,其中包括野外环境中的图像,以及基于顶点级的伪真实3D接触信息,还有涉及的物体和身体部位的标签。利用DAMON数据集,他们训练了DECO,一种能够从单张彩色图像中检测3D身体接触的新型模型。DECO的创新之处在于它能够跨越与相关身体部位和场景元素进行关联,同时将推测的3D接触与相关的2D像素进行关联。实验结果显示,DECO在性能上明显优于现有的方法,并在野外环境中能够比较好地泛化。为了促进进一步的研究,他们还发布了他们的数据、模型和代码。

未来方向

未来的研究方向可能包括对DECO进行扩展,以便能够精细地处理人与人、人与动物以及自身接触等情况。另一个有前景但具有挑战性的方向是利用现有数据集中的图像标注或通过大型语言模型(LLM)推断图像标注的方法,从而进一步提高图像内容的理解和应用。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论