旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI

Xsens动作捕捉 2023-05-10 2222

基于图像的人体姿势估计的最新进展使从单个RGB视频捕捉3D人体运动成为可能。但是,单视图固有的深度不确定性和自遮挡问题导致其恢复的结果无法达到多视图重建的高质量。尽管多视图视频并不常见,但名人执行特定动作的视频通常在互联网上非常丰富。虽然这些视频是在不同的时间录制的,但是它们依然会编码人的相同运动特征。


因此,我们提出联合分析这些互联网视频而不是单独使用单个视频来捕捉人的动作。但是,这项新任务带来了许多新的挑战,这些挑战是现有方法无法解决的,因为视频不同步,摄像机视角未知,背景场景不同以及视频中的人体动作并不完全相同。为了解决这些挑战,董峻廷等提出了一种基于优化的新框架,并通过实验证明了与单视图运动捕捉方法相比,它能够从多个视频中恢复更为精确和细致的运动的。


董峻廷,浙江大学CAD&CG国家重点实验室三年级博士研究生,导师为周晓巍研究员。研究方向为三维重建与人体姿态估计。相关研究成果发表在计算机视觉顶级会议CVPR和ECCV上,并两次获得oral。个人主页:http://jtdong.com/


一、引言


人体运动捕捉(Human motion capture,MoCap))是一项非常核心的技术,它有着十分广泛的应用,比如电影制作、视频游戏开发、体育分析等,最近重映的电影《阿凡达》就是电影制作中一个很好的例子。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第1张


尽管现已有一些针对人体运动捕捉的商业解决方案,如Vicon等,但这些系统都是非常专业的,在日常使用中并不适合。另外,最近也出现了许多无标记的人体运动捕捉的算法,通过多目的输入,可以捕捉各种各样的动作。但这些方法存在价格昂贵、标定困难、使用麻烦等问题。更重要的是,它们要求动作执行者必须在捕捉设备里进行动作采集。举个例子,你想采集费德勒的一个动作,你就必须把他请到你的工作室里执行相应的动作,这一定程度上是存在困难的。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第2张

旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第3张


为让人体运动捕捉技术更便于使用,研究人员开发了许多基于单目的人体运动捕捉算法。近来因深度学习的进步、大型数据集的公开、具有很强表达能力人体模型的发布,这些单目算法都已取得了很大的进步。但这些方法也存在一些问题,最核心的问题是单目的输入始终存在深度的不确定以及自遮挡。如下图所示,恢复的结果看起来是不错的,但其实换一个视角就会发现深度上是存在不确定结果的。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第4张


幸运的是,我们发现一些名人在做某些特定动作的视频在互联网上很丰富,比如说费德勒发球,他在很多比赛中都会出现该动作。这些视频记录的不是同一场景,不是同一时间,动作也不完全相同,但它们某种程度上编码的是人特定动作的特征。我们的出发点就是从这种视频里恢复出更准确的人体运动,希望得到的动作结果与单目方法相比能更为精细。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第5张


二、方法


这是一个全新的问题,也是一个极具挑战的问题。存在的挑战主要有以下几点:(1)这些视频是不同步的;(2)相机参数是未知的;(3)背景不同的;(4)不同视频中记录的人体运动并不是完全一致的。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第6张


为了解决这些挑战,董峻廷等提出了一种基于优化的框架,来共同解决同步和重构的问题。首先,对输入的视频进行一个视频同步,得到同步视频;然后,基于同步视频重建相机参数和人体的运动。


(一)视频同步


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第7张


视频同步是指找到多段视频间每一帧的对应关系,但这是一项极具挑战的任务,原因在于不同视频包含的外观是非常不同的,这里的外观涵盖了背景、人体的衣服以及相机视角等多个方面。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第8张


为了解决此挑战,讲者等提出直接使用人体三维姿态进行视频同步。具体来说,就是用一个现有的人体三维姿态估计的方法得到每一帧三维人体姿态的估计,然后基于人体三维姿态估计找到视频中每一帧的对应关系。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第9张


如下图,我们已经有视频i和j每一帧三维人体姿态,那么就可以构造出两个视频的相似性矩阵,然后根据动态规划算法就可以得到最优匹配关系,即它们的同步结果。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第10张


在两段视频的情况下,以上操作是没有问题的。但当视频段数(三段甚至更多)比较多时,就会出现回路一致性问题。所谓回路一致性,举个例子,如下图所示,三个视频之间,绿色虚线的对应关系是满足回路一致性的,因为它们形成了一个封闭的回路,而红色虚线的对应关系则不满足回路一致性约束。引入回路一致性算法的方法是在原来相似性矩阵的基础上,加入一项低秩优化项。实验表明,加入回路一致性约束能够大幅降低视频同步中的误差。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第11张


(二)运动重建


即使视频是同步的,该问题仍不能视为标准的多视图重建问题,原因有两点。首先,相机参数是未知,并且由于背景不同,相机参数无法进行恢复。针对这个问题,讲者等提出直接使用人作为参考物来对齐各视角中的相机,联合优化相机参数以及人体运动,最小化重建误差。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第12张


其次,人体运动在不同的视频中并不完全相同。为了解决这一问题,讲者等提出低秩建模,用低秩子空间来描述不同视频中的运动差异。具体而言,就是要求不同视频中的人体姿态构造而成的矩阵是低秩的。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第13张


下图比较了低秩建模与同个模型建模的效果,通过对比可以发现低秩建模能够捕捉到更精细的运动。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第14张


(三)迭代优化


方法的第三步是迭代优化,在第二步中我们已经得到人体的运动,由于重建的人体运动比之前的三维单目的方法更为准确,因此可以用重建的姿态替换掉之前单目估计的结果,更好地进行同步。有了更好的同步结果,自然就可以得到更好的重建结果。通过迭代,可以使视频同步和人体运动捕捉都得到相应的提升。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第15张


三、实验


由于研究的是一个全新的问题,没有适用的相应数据集,为了评估结果,讲者等收集了一个新的互联网数据集,里面包括了瑜伽、网球、棒球、乒乓球、健身、举重等运动。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第16张


下图展示了多个动作的重建结果。

旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第17张


对比初始的单目方法可以发现,讲者等提出来的算法可以恢复更精细、准确、鲁棒的结果。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第18张


另外,由于该算法有多目的信息,可以恢复出绝对的轨迹信息,这是单目方法无法做到的。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第19张


在修改过的3.6M数据集上进行定量实验,左边是输入的不同步的、没有标的信息的视频,右边是重建的结果。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第20张


比起单目的方法,讲者等的算法在误差上降低了33mm,并且在数据集上没有任何的训练,相机是没有标的和同步的。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第21张


在得到精细的结果之后,可以进行很多的应用,比如下图中卡通人物的驱动。


旋转or跳跃?基于互联网视频的人体运动捕捉#浙大#AI  第22张


相关资料


论文标题:

Motion Capture from Internet Videos


论文链接:

https://arxiv.org/pdf/2008.07931.pdf


合作媒体:学术头条

The End