CSIG 3DV专委会 [成果速览] — LEMO:复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral]
重建复杂3D 场景下的人体动作有很多应用,例如AR/VR, 虚拟avatar生成,或者机器人。Marker-based 动作捕捉系统(mocap)可以重建高质量的动作,但是昂贵且操作复杂,不适合用来捕捉日常环境下的动作。PROX[1] 提出一个轻量级的方法捕捉3D场景下人与环境的交互:一个单目RGB(D)相机。RGB(D)相机操作简单,适合用来大规模捕捉人体动作数据。但是单目相机会造成部分身体被环境遮挡,并且重建的动作有很多不自然的抖动或滑动。而使用多个相机捕捉则需要标定和同步,如果使用IMU会出现偏移的现象,并且多个相机和IMU捕捉的动作依然有抖动,动作质量无法与mocap相媲美。
我们提出了LEMO: LEarning human MOtion priors for 4D human body capture。仅使用单目RGB(D)相机,通过从大型高质量mocap数据集AMASS[2]上学习motion priors,来实现复杂3D场景下的自然真实的人体动作捕捉,达到和mocap一样的效果。
[ICCV 2021] (Oral) Learning Motion Priors for 4D Human Body Capture in 3D Scenes
张四维(ETH Zurich), 张言(ETH Zurich), Federica Bogo(Microsoft), Marc Pollefeys(ETH Zurich, Microsoft), 汤思宇(ETH Zurich)
论文链接: https://sanweiliti.github.io/LEMO/LEMO.html
- 创新点
论文的key idea是从已有的高质量动作数据集AMASS上学习motion priors, 将其整合到一个统一的optimization 框架中来重建3D 场景中的人体动作。
1)Marker-based motion smoothness prior: 通过一个2D卷积autoencoder的latent space来建模全身动作。输入的每一帧body由一些身体表面marker的3D 坐标来表示,更好地约束人体的自由度。
2)Contact-aware motion infilling prior via per-instance self-supervised learning:我们提出一个motion infiller来解决身体被环境中的物体遮挡的情况。Motion infiller同时预测身体动作和foot-ground contact states。在测试阶段,对每个有部分身体遮挡的test动作,基于未被遮挡的身体部分的reconstruction loss来finetune训好的infiller,使训好的 motion infilling prior更好地适应到单独的测试样本,进一步提高模型效果。
3)一个multi-stage optimization pipeline: 把以上的motion priors和一个contact friction term(通过foot contact states对脚部的动作进行约束) 以及3D场景约束融合到一起,进行高质量的动作重建。
2. 相关工作
基于RGB(D)视频的人体动作重建。一些工作基于parametric body model通过多个或单个相机重建完整的3D人体,例如Kocabas et al.[3] 用双向GRU来编码动作,并且用一个discriminator来辨别真实的动作和模型的预测。但是这些方法都忽略了人与场景的交互。
人-场景交互:PROX[1] capture了人在3D场景中的各类动作,考虑了SMPL-X body[4] 和3D场景的接触以及碰撞约束。
Human motion priors:有些prior约束body joint的速度或加速度,或使用DCT prior[5]来平滑动作,重建动作不够自然。而我们的motion smoothness prior在真实的动作数据集上训练,并且在latent space对动作的平滑度进行约束。Kaufmann et al. [6] 基于body joint用卷积autoencoder来infill motion并且去噪。与其对比,我们的motion infilling prior基于body marker,且同时预测foot contact states和全身动作,有效减少foot skating并提高预测准确度。
3. 方法描述
给定一个RGBD视频,以及3D场景mesh,目标是重建视频中的动作,要求其真实自然准确并且与场景有合理的交互关系。我们用SMPL-X model来表示人体。SMPL-X用一个函数表示人体,输入是global translation/rotation, 身体的形状,身体、手部姿势和面部表情的参数,输出是3D body mesh。
我们的方法分为三个阶段。阶段1进行单帧的SMPL-X参数fitting[1],但得到的动作不够光滑,也无法处理身体被遮挡的情况。阶段2用smoothness prior恢复平滑且自然的动作。阶段3用infilling prior恢复被遮挡身体部分的动作。
阶段1: 单帧身体重建
使用PROX[1]的方法,最小化以下的目标函数:
其中各项分别为:2D body joints和openpose检测的误差,目前的身体点云和深度图像得到的身体点云的误差,对体型、身体姿势和表情的prior约束,对身体-环境接触的鼓励项和碰撞约束。
阶段2:Temporally smooth motion.
我们在AMASS数据集上训练了一个2D卷积autoencoder来重建光滑且自然的动作。输入动作的每一帧由身体表面marker的3D坐标来表示,。所有帧的身体marker的速度连接成一个2D feature, 作为这个网络的输入。对每个单独的joint或者marker约束速度或加速度会使动作变得不自然,而这个autoendoer的latent space覆盖了很大的spatial-temporal感受野,可以建模全身的动作。我们在latent space进行平滑约束(最小化latent space在时间方向的一阶导数),和输入-输出重建的loss一起训练。optimization中在阶段1的目标函数基础上,使用这个pretrained encoder并且对latent space施加同样的平滑约束,可以重建平滑且自然的动作。
阶段3:恢复被环境遮挡的动作
给定未被遮挡的身体marker,我们在AMASS上训练一个motion infilling network来预测被遮挡部分的marker的位置,以及foot contact (脚部是否与地面接触),然后通过optimization得到一个完整的SMPL-X body mesh。对每一个测试动作,基于未被遮挡的身体部分的重建loss来finetune训好的模型,使训好的 motion infilling prior更好地适应到单独的测试样本。Optimization中在阶段2的目标函数基础上,使optimize得到的身体maker尽可能贴近该模型的预测,并且根据预测的foot contact对脚部速度进行约束,减少foot-skating问题的发生。
4. 实验结果
我们在PROX, 3DPW和AMASS上进行了测试。表1和表2分别为motion smoothness prior (Ours-SP) 在PROX和3DPW的结果,其中2DJE为2D joint准确度,PSKL-M/PSKL-J为我们的结果和AMASS中自然的动作的分布距离,用于评估动作是否自然平滑,NonColl评估body mesh和3D环境是否有碰撞冲突。实验结果展示了motion smoothness prior可以在提高准确度的同时,实现高质量的动作重建并保持和环境的合理交互关系。
表1的最后一行和表3为motion infilling prior在PROX和AMASS上分别的测试结果,证明了在身体被部分遮挡的情况下,我们的方法可以实现高精度高质量的动作重建,且有效减少foot skating的发生。
参考文献
[1] Mohamed Hassan, Vasileios Choutas, Dimitrios Tzionas, and Michael J Black. Resolving 3d human pose ambiguities with 3d scene constraints. In Proceedings of the IEEE International Conference on Computer Vision, pages 2282–2292, 2019.
[2] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. Amass: Archive of motion capture as surface shapes. In Proceedings of the IEEE International Conference on Computer Vision, pages 5442–5451, 2019.
[3] Muhammed Kocabas, Nikos Athanasiou, and Michael J Black. Vibe: Video inference for human body pose and shape estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5253–5263, 2020.
[4] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed AA Osman, Dimitrios Tzionas, and Michael J Black. Expressive body capture: 3d hands, face, and body from a single image. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10975–10985, 2019
[5] Yinghao Huang, Federica Bogo, Christoph Lassner, Angjoo Kanazawa, Peter V Gehler, Javier Romero, Ijaz Akhter, and
Michael J Black. Towards accurate marker-less human shape and pose estimation over time. In 2017 international conference on 3D vision (3DV), pages 421–430. IEEE, 2017.
[6] Manuel Kaufmann, Emre Aksan, Jie Song, Fabrizio Pece, Remo Ziegler, and Otmar Hilliges. Convolutional autoencoders for human motion infilling. In 2020 International Conference on 3D Vision (3DV). IEEE, 2020.
三维视觉(3DV)专委会定位于推动三维视觉理论、技术与应用的发展,探讨人工智能时代三维视觉的新理论和新技术,通过融合计算机视觉、图形学、大数据以及机器人技术的最新进展,推动三维视觉理论和方法体系的构建和发展、提高三维视觉算法及系统的易用性及效率、加快三维视觉技术的实用化和产业落地。专委会积极建立常态化的学术交流机制,通过相关领域专家学者的思想碰撞,达成研究方向及技术应用上的共识,推动相关领域的研究进展及产学研合作。
成果速览主要聚焦于近年内在3DV领域的高质量原创研究(包括但不局限于论文、竞赛成果、应用展示、研究报告等),旨在为3DV领域的学者提供学术交流平台,增进对相互工作的了解。欢迎大家推荐或自荐优秀研究成果,如您有意成果展示,请与CSIG 3DV秘书处联系。联系方式:武玉伟(wuyuwei@bit.edu.cn),郭裕兰(yulan.guo@nudt.edu.cn)。