CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral]

Xsens动作捕捉 2023-04-13 6800

重建复杂3D 场景下的人体动作有很多应用，例如AR/VR, 虚拟avatar生成，或者机器人。Marker-based 动作捕捉系统（mocap）可以重建高质量的动作，但是昂贵且操作复杂，不适合用来捕捉日常环境下的动作。PROX[1] 提出一个轻量级的方法捕捉3D场景下人与环境的交互：一个单目RGB(D)相机。RGB(D)相机操作简单，适合用来大规模捕捉人体动作数据。但是单目相机会造成部分身体被环境遮挡，并且重建的动作有很多不自然的抖动或滑动。而使用多个相机捕捉则需要标定和同步，如果使用IMU会出现偏移的现象，并且多个相机和IMU捕捉的动作依然有抖动，动作质量无法与mocap相媲美。

我们提出了LEMO: LEarning human MOtion priors for 4D human body capture。仅使用单目RGB(D)相机，通过从大型高质量mocap数据集AMASS[2]上学习motion priors，来实现复杂3D场景下的自然真实的人体动作捕捉，达到和mocap一样的效果。

[ICCV 2021] (Oral) Learning Motion Priors for 4D Human Body Capture in 3D Scenes

张四维(ETH Zurich), 张言(ETH Zurich), Federica Bogo(Microsoft), Marc Pollefeys(ETH Zurich, Microsoft), 汤思宇(ETH Zurich)

论文链接: https://sanweiliti.github.io/LEMO/LEMO.html

创新点

论文的key idea是从已有的高质量动作数据集AMASS上学习motion priors, 将其整合到一个统一的optimization 框架中来重建3D 场景中的人体动作。

1）Marker-based motion smoothness prior: 通过一个2D卷积autoencoder的latent space来建模全身动作。输入的每一帧body由一些身体表面marker的3D 坐标来表示，更好地约束人体的自由度。

2）Contact-aware motion infilling prior via per-instance self-supervised learning：我们提出一个motion infiller来解决身体被环境中的物体遮挡的情况。Motion infiller同时预测身体动作和foot-ground contact states。在测试阶段，对每个有部分身体遮挡的test动作，基于未被遮挡的身体部分的reconstruction loss来finetune训好的infiller，使训好的 motion infilling prior更好地适应到单独的测试样本，进一步提高模型效果。

3）一个multi-stage optimization pipeline: 把以上的motion priors和一个contact friction term(通过foot contact states对脚部的动作进行约束) 以及3D场景约束融合到一起，进行高质量的动作重建。

2. 相关工作

基于RGB(D)视频的人体动作重建。一些工作基于parametric body model通过多个或单个相机重建完整的3D人体，例如Kocabas et al.[3] 用双向GRU来编码动作，并且用一个discriminator来辨别真实的动作和模型的预测。但是这些方法都忽略了人与场景的交互。

人-场景交互：PROX[1] capture了人在3D场景中的各类动作，考虑了SMPL-X body[4] 和3D场景的接触以及碰撞约束。

Human motion priors：有些prior约束body joint的速度或加速度，或使用DCT prior[5]来平滑动作，重建动作不够自然。而我们的motion smoothness prior在真实的动作数据集上训练，并且在latent space对动作的平滑度进行约束。Kaufmann et al. [6] 基于body joint用卷积autoencoder来infill motion并且去噪。与其对比，我们的motion infilling prior基于body marker，且同时预测foot contact states和全身动作，有效减少foot skating并提高预测准确度。

3. 方法描述

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第1张 — 图1：multi-stage pipeline. 第二行为每个阶段结果的body marker轨迹（左）和加速度（右）。阶段1（蓝色）的加速度很大且不真实，阶段2（绿色）的加速度平滑了很多，而阶段3（橙色）恢复的结果和AMASS上的一段高质量运动加速度（粉色）最为相似。

给定一个RGBD视频，以及3D场景mesh，目标是重建视频中的动作，要求其真实自然准确并且与场景有合理的交互关系。我们用SMPL-X model来表示人体。SMPL-X用一个函数表示人体，输入是global translation/rotation, 身体的形状，身体、手部姿势和面部表情的参数，输出是3D body mesh。

我们的方法分为三个阶段。阶段1进行单帧的SMPL-X参数fitting[1]，但得到的动作不够光滑，也无法处理身体被遮挡的情况。阶段2用smoothness prior恢复平滑且自然的动作。阶段3用infilling prior恢复被遮挡身体部分的动作。

阶段1：单帧身体重建

使用PROX[1]的方法，最小化以下的目标函数：

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第2张

其中各项分别为：2D body joints和openpose检测的误差，目前的身体点云和深度图像得到的身体点云的误差，对体型、身体姿势和表情的prior约束，对身体-环境接触的鼓励项和碰撞约束。

阶段2：Temporally smooth motion.

我们在AMASS数据集上训练了一个2D卷积autoencoder来重建光滑且自然的动作。输入动作的每一帧由身体表面marker的3D坐标来表示,。所有帧的身体marker的速度连接成一个2D feature, 作为这个网络的输入。对每个单独的joint或者marker约束速度或加速度会使动作变得不自然，而这个autoendoer的latent space覆盖了很大的spatial-temporal感受野，可以建模全身的动作。我们在latent space进行平滑约束（最小化latent space在时间方向的一阶导数），和输入-输出重建的loss一起训练。optimization中在阶段1的目标函数基础上，使用这个pretrained encoder并且对latent space施加同样的平滑约束，可以重建平滑且自然的动作。

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第3张 — 图2： motion smoothness prior with a latent space z

阶段3：恢复被环境遮挡的动作

给定未被遮挡的身体marker，我们在AMASS上训练一个motion infilling network来预测被遮挡部分的marker的位置，以及foot contact (脚部是否与地面接触)，然后通过optimization得到一个完整的SMPL-X body mesh。对每一个测试动作，基于未被遮挡的身体部分的重建loss来finetune训好的模型，使训好的 motion infilling prior更好地适应到单独的测试样本。Optimization中在阶段2的目标函数基础上，使optimize得到的身体maker尽可能贴近该模型的预测，并且根据预测的foot contact对脚部速度进行约束，减少foot-skating问题的发生。

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第4张 — 图3: motion infilling

4. 实验结果

我们在PROX, 3DPW和AMASS上进行了测试。表1和表2分别为motion smoothness prior (Ours-SP) 在PROX和3DPW的结果，其中2DJE为2D joint准确度，PSKL-M/PSKL-J为我们的结果和AMASS中自然的动作的分布距离，用于评估动作是否自然平滑，NonColl评估body mesh和3D环境是否有碰撞冲突。实验结果展示了motion smoothness prior可以在提高准确度的同时，实现高质量的动作重建并保持和环境的合理交互关系。

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第5张 — 表1: PROX数据集的测试结果

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第6张 — 表2：motion smoothness prior在3DPW数据集的测试结果

表1的最后一行和表3为motion infilling prior在PROX和AMASS上分别的测试结果，证明了在身体被部分遮挡的情况下，我们的方法可以实现高精度高质量的动作重建，且有效减少foot skating的发生。

CSIG 3DV专委会 [成果速览] — LEMO：复杂3D场景下的自然真实的人体动作捕捉[ICCV21 Oral] 第7张 — 表3：motion infilling prior在AMASS数据集的测试结果

参考文献

[1] Mohamed Hassan, Vasileios Choutas, Dimitrios Tzionas, and Michael J Black. Resolving 3d human pose ambiguities with 3d scene constraints. In Proceedings of the IEEE International Conference on Computer Vision, pages 2282–2292, 2019.

[2] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. Amass: Archive of motion capture as surface shapes. In Proceedings of the IEEE International Conference on Computer Vision, pages 5442–5451, 2019.

[3] Muhammed Kocabas, Nikos Athanasiou, and Michael J Black. Vibe: Video inference for human body pose and shape estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5253–5263, 2020.

[4] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed AA Osman, Dimitrios Tzionas, and Michael J Black. Expressive body capture: 3d hands, face, and body from a single image. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10975–10985, 2019

[5] Yinghao Huang, Federica Bogo, Christoph Lassner, Angjoo Kanazawa, Peter V Gehler, Javier Romero, Ijaz Akhter, and

Michael J Black. Towards accurate marker-less human shape and pose estimation over time. In 2017 international conference on 3D vision (3DV), pages 421–430. IEEE, 2017.

[6] Manuel Kaufmann, Emre Aksan, Jie Song, Fabrizio Pece, Remo Ziegler, and Otmar Hilliges. Convolutional autoencoders for human motion infilling. In 2020 International Conference on 3D Vision (3DV). IEEE, 2020.

三维视觉（3DV）专委会定位于推动三维视觉理论、技术与应用的发展，探讨人工智能时代三维视觉的新理论和新技术，通过融合计算机视觉、图形学、大数据以及机器人技术的最新进展，推动三维视觉理论和方法体系的构建和发展、提高三维视觉算法及系统的易用性及效率、加快三维视觉技术的实用化和产业落地。专委会积极建立常态化的学术交流机制，通过相关领域专家学者的思想碰撞，达成研究方向及技术应用上的共识，推动相关领域的研究进展及产学研合作。

成果速览主要聚焦于近年内在3DV领域的高质量原创研究（包括但不局限于论文、竞赛成果、应用展示、研究报告等），旨在为3DV领域的学者提供学术交流平台，增进对相互工作的了解。欢迎大家推荐或自荐优秀研究成果，如您有意成果展示，请与CSIG 3DV秘书处联系。联系方式：武玉伟（wuyuwei@bit.edu.cn），郭裕兰（yulan.guo@nudt.edu.cn）。

http://weixin.qq.com/r/WS-h_VPEzw6wrRea93pL (二维码自动识别)

The End

标签：动作捕捉人体动作捕捉

« 2024年1月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章