旋转or跳跃？基于互联网视频的人体运动捕捉

Xsens动作捕捉 2022-11-17 8857

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

基于图像的人体姿势估计的最新进展使从单个RGB视频捕捉3D人体运动成为可能。但是，单视图固有的深度不确定性和自遮挡问题导致其恢复的结果无法达到多视图重建的高质量。尽管多视图视频并不常见，但名人执行特定动作的视频通常在互联网上非常丰富。虽然这些视频是在不同的时间录制的，但是它们依然会编码人的相同运动特征。

因此，我们提出联合分析这些互联网视频而不是单独使用单个视频来捕捉人的动作。但是，这项新任务带来了许多新的挑战，这些挑战是现有方法无法解决的，因为视频不同步，摄像机视角未知，背景场景不同以及视频中的人体动作并不完全相同。为了解决这些挑战，董峻廷等提出了一种基于优化的新框架，并通过实验证明了与单视图运动捕捉方法相比，它能够从多个视频中恢复更为精确和细致的运动的。

董峻廷：浙江大学CAD&CG国家重点实验室三年级博士研究生，导师为周晓巍研究员。研究方向为三维重建与人体姿态估计。相关研究成果发表在计算机视觉顶级会议CVPR和ECCV上，并两次获得oral。个人主页：http://jtdong.com/

一、引言

人体运动捕捉（Human motion capture，MoCap)）是一项非常核心的技术，它有着十分广泛的应用，比如电影制作、视频游戏开发、体育分析等，最近重映的电影《阿凡达》就是电影制作中一个很好的例子。

尽管现已有一些针对人体运动捕捉的商业解决方案，如Vicon等，但这些系统都是非常专业的，在日常使用中并不适合。另外，最近也出现了许多无标记的人体运动捕捉的算法，通过多目的输入，可以捕捉各种各样的动作。但这些方法存在价格昂贵、标定困难、使用麻烦等问题。更重要的是，它们要求动作执行者必须在捕捉设备里进行动作采集。举个例子，你想采集费德勒的一个动作，你就必须把他请到你的工作室里执行相应的动作，这一定程度上是存在困难的。

为让人体运动捕捉技术更便于使用，研究人员开发了许多基于单目的人体运动捕捉算法。近来因深度学习的进步、大型数据集的公开、具有很强表达能力人体模型的发布，这些单目算法都已取得了很大的进步。但这些方法也存在一些问题，最核心的问题是单目的输入始终存在深度的不确定以及自遮挡。如下图所示，恢复的结果看起来是不错的，但其实换一个视角就会发现深度上是存在不确定结果的。

幸运的是，我们发现一些名人在做某些特定动作的视频在互联网上很丰富，比如说费德勒发球，他在很多比赛中都会出现该动作。这些视频记录的不是同一场景，不是同一时间，动作也不完全相同，但它们某种程度上编码的是人特定动作的特征。我们的出发点就是从这种视频里恢复出更准确的人体运动，希望得到的动作结果与单目方法相比能更为精细。

二、方法

这是一个全新的问题，也是一个极具挑战的问题。存在的挑战主要有以下几点：（1）这些视频是不同步的；（2）相机参数是未知的；（3）背景不同的；（4）不同视频中记录的人体运动并不是完全一致的。

为了解决这些挑战，董峻廷等提出了一种基于优化的框架，来共同解决同步和重构的问题。首先，对输入的视频进行一个视频同步，得到同步视频；然后，基于同步视频重建相机参数和人体的运动。

（一）视频同步

视频同步是指找到多段视频间每一帧的对应关系，但这是一项极具挑战的任务，原因在于不同视频包含的外观是非常不同的，这里的外观涵盖了背景、人体的衣服以及相机视角等多个方面。

为了解决此挑战，讲者等提出直接使用人体三维姿态进行视频同步。具体来说，就是用一个现有的人体三维姿态估计的方法得到每一帧三维人体姿态的估计，然后基于人体三维姿态估计找到视频中每一帧的对应关系。

如下图，我们已经有视频i和j每一帧三维人体姿态，那么就可以构造出两个视频的相似性矩阵，然后根据动态规划算法就可以得到最优匹配关系，即它们的同步结果。

在两段视频的情况下，以上操作是没有问题的。但当视频段数（三段甚至更多）比较多时，就会出现回路一致性问题。所谓回路一致性，举个例子，如下图所示，三个视频之间，绿色虚线的对应关系是满足回路一致性的，因为它们形成了一个封闭的回路，而红色虚线的对应关系则不满足回路一致性约束。引入回路一致性算法的方法是在原来相似性矩阵的基础上，加入一项低秩优化项。实验表明，加入回路一致性约束能够大幅降低视频同步中的误差。