浙大CAD实验室三维视觉研究组提出从互联网视频进行人体运动捕捉新方法
我们介绍一篇[ECCV 2020 Oral]的论文:Motion Capture from Internet Videos,该论文由浙大CAD实验室三维视觉研究组提出。该论文定义了一个全新的问题,从多段互联网视频中捕捉精确的人体运动,被reviewer评论为开创了三维人体姿态估计的新方向。
论文链接:https://arxiv.org/pdf/2008.07931.pdf
论文主页:https://zju3dv.github.io/iMoCap/
论文数据集:https://github.com/zju3dv/iMoCap
0. Demo
1. 引言
1.1 论文的问题描述
从多段同一个人执行某个动作的互联网视频(如费德勒发球)中,捕捉这个人精确的运动。人体运动捕捉有着广泛的应用,如电影制作,视频游戏开发,体育分析,交互娱乐等等。
1.2 当前人体运动捕捉方法的局限性
尽管目前存在一些商用的人体运动捕捉(MoCap)系统,如Vicon等,这些系统是面向专业人士的,而非日常使用。这些系统价格昂贵,同时标定困难。更重要的是,执行运动的人必须在MoCap studio里,这是非常繁琐,对于业余使用来说是不可能的。想象一下,你是一家小游戏公司,然后想建模费德勒的发球,正反手挥拍等各种动作,你得花多少人力财力请人家过来,现在还碰到新冠疫情... 总之使用成本非常搞,且不方便。
为了让人体运动捕捉能够日常使用,许多单目人体运动捕捉的算法已经被提出从一段RGB视频中恢复人体运动。近来因为深度学习,大型数据集和人体模型的进步,这些单目方法已经取得了很大的进步。但是这些方法都是单个视频作为输入,这个问题本身是ill-posed,非常难恢复得到准确细致的人体运动。利用多视角视频能够解决不确定性,但是标定且同步好的多视角视频非常不常见。
1.3 我们的出发点和解决方法
幸运的是,我们观察到一些有名的人在做某些特定动作的视频在互联网上很多。尽管这些视频是在不同时间不同地点录制的,这些视频中的动作并不完全相同,但它们编码的是同一个人的相同动作特征。 与单段视频相比,多段视频可提供有关特定运动更加丰富的观察结果。 更重要的是,视频通常记录在不同的视角,从而提供多视角信息,可以帮助缓解3D不确定性和自我遮挡问题。
这个新问题带来了许多挑战,使现有的多视角MoCap算法不可用:
- 这些视频是不同步的
- 相机的视角未知,同时背景可能不同,导致SfM无法适用
- 所有视频中的人体动作并不完全相同
为了解决这些挑战,我们提出了一种基于优化的框架,来联合求解视频同步和运动重建。
2. 论文方法
我们的方法
- 使用现有的单目三维人体姿态估计算法初始化每段视频每帧的三维人体姿态估计,通过基于三维人体姿态相似性来匹配视频帧,完成视频同步;
- 针对所有视频联合优化相机姿态和人体运动;
- 用低秩子空间来建模不同视频间的运动不完全相同;
- 迭代进行基于三维姿势的视频同步和人体运动重建。
3. 实验分析
3.1 定量分析
在我们新合成的数据集上,我们的算法比单目运动捕捉算法MPJPE降低了33mm!
3.2 定性分析
结果请见Demo视频。