论文解读:从2D 视频中捕捉3D人体行为

Xsens动作捕捉 2022-12-03 9200

论文解读:从2D 视频中捕捉3D人体行为  第1张
论文题目:Human Performance Capture from Monocular Video
论文地址:http://gvv.mpi-inf.mpg.de/projects/wxu/MonoPerfCap/

0.先睹为快——从2D 视频中捕捉3D人体行为

下面这些图片是从平面视频中捕捉人体连贯动作的效果,非常精准了:

论文解读:从2D 视频中捕捉3D人体行为  第2张
论文解读:从2D 视频中捕捉3D人体行为  第3张

1.引言

无标记人类动作捕捉在过去的十年中一直是计算机视觉和计算机图形学界的高度相关和具有挑战性的研究课题。

其目标是跟踪移动主体的运动,并从未修改的视频重建其动态变形表面的时序连贯表示。由于高自由度关节(high level of articulation),可能的快速运动和相当大的非刚性变形,人类动作捕捉是一个非常具有挑战性的问题。

针对这一问题的强大而高精度的解决方案,不仅是计算机动画,视觉效果和自由视点视频等广泛应用的必要先决条件,还有医学或生物力学等其他领域的应用。尤其是,随着虚拟现实(VR)系统和远程呈现的最近流行,对轻量级动作捕捉解决方案的需求不断增加。

论文解读:从2D 视频中捕捉3D人体行为  第5张


文中提出了第一种无标记方法,用于从单视角视频中捕捉普通着装的人体的时序连贯的3D动作。它可以重建关节式人体骨骼运动以及一般场景中的中等非刚性表面变形。

2.卷积神经网络简介


卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功,在国际标准的ImageNet数据集上,许多成功的模型都是基于CNN的。CNN相较于传统的图像处理算法的优点之一在于,避免了对图像复杂的前期预处理过程(人工提取特征等),可以直接输入原始图像;
另外,传统的神经网络都是采用全连接的方式,即输入层到隐藏层的神经元都是全部连接的,这样做将导致参数量巨大,使得网络训练耗时甚至难以训练,而CNN则通过稀疏连接(Sparse
Connectivity)、权值共享(Shared Weights)等方法避免了这一困难。

3.背景介绍

论文解读:从2D 视频中捕捉3D人体行为  第6张

给一个2D视频和一套定制的表演者装备,重建表演者运动以及中等规模的人体表面变形。单视角视频重建问题通过基于低维轨迹子空间的时序连贯的批量运动数据关节恢复来解决。 基于自动提取的轮廓的非刚性对齐用于更好地匹配输入。

由于广泛存在大范围的关节运动,潜在的快速运动以及相当大的非刚性变形,即使是多视角数据,人类的动作捕捉也是一个具有挑战性的问题。仅从单一单视角视频重建就尤其具有挑战性,因为强遮挡和固有的景深模糊会导致重建问题变得异常困难。

本文中提出了一个新的方法来应对这些挑战--使用基于批量运动数据的姿态估计策略的卷积神经网络,该网络嵌入了稀疏2D和3D人体姿势检测单元。

由于使用批量运动数据的关节恢复,该方法解决了基于低维轨迹子空间的单视角2D视频重建问题的模糊性。此外,文中为了实现中等规模的非刚性对齐,采用完全自动提取的轮廓来优化曲面几何图形。

这一研究展示了最先进的动作捕捉结果,能够激发视频编辑和免费视点视频等令人兴奋的应用,而这些应用以前在单视角视频中是不可行的。文章在定性和定量评估中表明,这一方法在准确性,鲁棒性和可处理的场景复杂度方面明显优于以前的单视角方法。

论文解读:从2D 视频中捕捉3D人体行为  第7张


以静态姿势从表演者的手持录像中获取带纹理的模板网格。
为了强有力地捕捉人体快速和高自由度的动作,文中利用来自卷积神经网络(CNN)的2D判别模型关节预测结果作为将3D骨架注册到图像的地标。

然而,由于缺乏明确的景深信息,三维姿态估计在旋转关节处的“向前/向后翻转”模糊。因此,尽管骨骼关节的2D投影精确地匹配预测,但3D姿态估计通常是不正确的。

不过在第二个CNN的帮助下解决了翻转模糊问题--这个CNN被训练用于从单视角图像中回归三维关节位置。为了进一步解决单视角重建问题的固有景深模糊性,使用低维线性轨迹子空间来对时空中的3D姿态进行确定,这种方法已被证明在运动中的非刚性结构的情况下是有效的。

此外,文中将基于自动提取的轮廓计算出的非刚性变形场精确地覆盖在输入的图像帧上,用以捕捉由于宽松的衣服造成的非刚性表面变形。

文章提出了第一种从无标记的时序连贯的单视角视频中自动化人类动作捕捉的方法。通过利用稀疏的二维和三维关节检测以及在批量帧数据上低维动作先验的联合优化,解决了单视角重建问题的模糊性。

被跟踪的曲面几何体也基于完全自动提取的轮廓进行改良,以实现中等规模的非刚性对齐。文中展示了引人注目的单眼重建结果,这些结果能够使用单个RGB视频实现前所未有的视频编辑和自由视点视频等令人兴奋的应用。

4.基于批处理的3D人体姿势估计

论文解读:从2D 视频中捕捉3D人体行为  第8张

与基于边界框(左)的手动初始化相比,基于模型的全自动初始化(中/左)显著改善了轮廓分割(中/右)。 另外,我们使用运动线索来进一步改善结果(右图)。

论文解读:从2D 视频中捕捉3D人体行为  第9张

基于轮廓的姿态细化同时改善了姿态估计与轮廓分割。
姿势估计中的误差导致靠近左臂(b,c)的背景剪裁不准确。
我们基于轮廓的姿势细化将网格(白色)拉到轮廓处(c),因此将手臂骨骼向左移动到正确位置(d)。
基于细化的姿态(e),在第二轮轮廓提取之后,轮廓分割得到显著提取。

论文解读:从2D 视频中捕捉3D人体行为  第10张


重建结果可以选择性地进行细化以添加精细的表面细节。

论文解读:从2D 视频中捕捉3D人体行为  第11张

组件的定性评估:基于批处理的姿势优化E_pose显着提高了判别能量E_2d + E_3d的对准。 请注意脚部旋转的改善。 残余非刚性变形通过基于表面的轮廓精修E_refine进行补偿。
Human Performance Capture from Monocular Video

5.定性结果

论文解读:从2D 视频中捕捉3D人体行为  第14张



定性结果:展示了各种具有挑战性的场景(左图),其中包括室内和室外环境,自然和人造环境,男性和女性受试者,以及紧身和宽松的服装,都对视频拍摄得到的2D人体行为有很好的捕捉结果。 即使从侧面看,重建也能与现实世界相匹配。

论文解读:从2D 视频中捕捉3D人体行为  第15张


尽管由于剩余的单视角深度模糊性,参考视图(不用于跟踪)的重建和参与者之间的深度偏移很小,我们的方法能够准确地恢复变形的姿态和形状。

相比于基于模板的单视角非刚性跟踪方法,文章提出的方法能够重建完整时序连贯的运动表示,结果在时间上更稳定,质量更高,并且更好地覆盖输入。

论文解读:从2D 视频中捕捉3D人体行为  第16张
论文解读:从2D 视频中捕捉3D人体行为  第17张
论文解读:从2D 视频中捕捉3D人体行为  第18张
论文解读:从2D 视频中捕捉3D人体行为  第19张

6.结论

总之,文章提出的单视角动作捕捉方法具有以下主要贡献:

  • 第一个仅依靠单视角视频的人体3D动作捕捉方法;
  • 2D和3D检测单元以及基于批处理的运动优化的组合,可以解决单视角三维姿态估计的固有翻转模糊问题;
  • 通过自动提取的单视角轮廓可以恢复非刚性表面变形;
  • 一个包含大约40k帧的、涵盖了各种不同的场景基准数据集。


作者认为,文章中提出的单视角动作捕捉方法是使得无标记单视角动作捕捉变为可行的重要一步。未来,针对这一具有挑战性的问题的进一步改进和实时解决方案将不仅对计算机动画,视觉效果和自由视点视频等广泛的应用产生巨大影响,而且对医学或生物力学等其他领域也有很大的影响。

http://prostheticknowledge.tumblr.com/post/173957576576/monoperfcap- graphics-research-from-the-max-planck

关注集智AI学园公众号,获取更多更有趣的AI教程吧!
搜索微信公众号:swarmAI
集智AI学园QQ群:426390994
学园网站:http://campus.swarma.org

http://weixin.qq.com/r/FzpGXp3ElMDrrdk9928F (二维码自动识别)


























The End