本文提出了从 3D 人物运动生成 3D 室内场景方法 MIME,该方法由人物运动推断室内的自由空间和物体,采用自回归 Transformer 架构,将场景中人物动作和已生成的物体作为输入,输出下一个可信的物体。为了训练 MIME,本文构建了一个包含交互人物和自由空间人物的 3D 场景数据集 3D FRONT HUMAN。实验表明,MIME 生成的 3D 场景支持人物接触和运动,并能够在自由空间中填充可信的物体。
来源:CVPR 2023
论文题目:MIME: Human-Aware 3D Scene Generation
论文链接:https://arxiv.org/abs/2212.04360
论文作者:Hongwei Yi 等人
内容整理: 林宗灏
引言
人类与周围环境处于持续的互动之中,例如在房间里行走、触摸物体、在椅子上休息、在床上睡觉等。所有这些互动都包含有关场景布局和物体摆放的信息。事实上,默剧表演者就是利用对这些互动的理解,通过肢体动作来传达一个想象中的三维世界。为了从 3D 人物运动生成 3D 室内场景,我们提出了 MIME(Mining Interaction and Movement to infer 3D Environments)来生成与人物运动相一致的室内场景。直观而言,人物运动表示室内的自由空间,而人物接触表示支持坐、躺、触摸等活动的表面或物体。MIME 采用自回归 Transformer 架构,将场景中人物动作和已生成的物体作为输入,输出下一个可信的物体。为了训练 MIME,我们向 3D FRONT 数据集中填充 3D 人物,构建了名为 3D FRONT Human 的新数据集。实验表明,MIME 生成的 3D 场景支持人物接触和运动,并能够在自由空间中填充可信的物体。本文的主要贡献总结如下:
- 一种新颖的基于运动条件的 3D 室内场景生成模型,该模型可自回归生成与人物接触和非接触的物体。
- 一个包含交互人物和自由空间人物的 3D 场景数据集,该数据集通过将 RenderPeople 的静态姿势和 AMASS 的运动数据填充至 3D FRONT 来构建。
方法
生成式人物感知场景合成
我们在训练过程中使用蒙特卡洛抽样来近似所有不同物体的排列,从而使我们的模型不受生成对象顺序的影响。
模型生成的场景由 3D 边界框表示。根据边界框的大小和类别标签,我们从 3D FUTURE 中检索最接近的网格模型。为了改善输入人物和生成场景之间的交互,我们采用碰撞损失和接触损失来细化物体位置,即计算统一的 SDF 和所有接触点,联合优化物体对齐来改善人物与物体的接触,解决人物与场景之间的穿模问题。
数据集
我们通过在 3D FRONT 中的 3D 房间中填充互动人物来生成一个包含大量房间和各种人物互动的新数据集 3D FRONT HUMAN。我们将人物表示为 SMPL-X 模型,并将来自 RenderPeople 的接触人物以可信的交互方式随机分配至房间中的各种可接触物体。在自由空间中,我们随机填充了一些静态站立的人物,添加了来自 AMASS 的具有随机起始位置和方向的行走动作序列,并移除了与场景中物体相交的人物。
实验
定量结果
定性结果
消融实验
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。