备受关注的视觉动捕技术，到底有了哪些重大突破？

Xsens动作捕捉 2023-05-09 9083

最近，一部《哪吒之魔童降世》的热映，让原本快要凉凉的暑期档瞬间升温，上映首日票房过2亿，三天票房破7亿，接连打破动画片首日、单日、首周记录，被誉为“国漫之光”。不止《哪吒》，近年来国产动画市场上涌现了《白蛇·缘起》《大鱼海棠》《大护法》《齐天大圣》等一大批优秀作品，国内电影市场陷入萧条，但国漫市场却以一年一部爆款的节奏持续繁荣，行业人士纷纷表示国漫的春天是真的要来了。而从制作上看，这些动画都无一例外大量的应用了动作捕捉技术，市场繁荣的背后，是国内动作捕捉的技术越来越成熟，应用越来越广泛。

但当下，动捕领域依旧是门槛重重，尤其对普通企业来说，现阶段的主流动捕技术——惯性动捕和光学动捕，皆是费用太高，对设备和环境要求太多。于是，近年来更加方便、高效、低成本的动捕技术——视觉动捕应运而生，在全球范围内备受关注研究，并且被业内公认为未来的主流趋势。

太平洋未来科技自创立之初，就一直在视觉动捕上进行研究，通过不断的技术研发尝试、迭代、落地应用，现阶段已经取得了多重突破。

在聊之前，我们先来看看视觉动捕与传统惯性动捕和光学动捕的区别到底在哪。

惯性动捕

惯性动捕需要将传感器置于关节处，然后将位置和方向信息反馈至中央处理器以记录对象的运动行为。为了准确传送对象信息，传感器需要采用线缆或以无线方式将相关信息传送至中央处理器。对于前者，布线工程比不可少；对于后者，设备通常需要自身携带电源，如电池组。

惯性动捕的优点在于，各个传感器处的三维位置和方向信息可实时地记录并显示（存在少许延迟），小范围使用费用相对合理。但缺陷也是很明显的，其每次使用需要消磁，而且有可能陷入Gimbal lock，导致后期需要调整。其往往受限于磁场的范围和精度，空间定位不准，且出于设备原因，动作局限也比较多然。而且一个人就是一套装备，多人的话成本成倍增加。

光学动捕

光学动作捕捉包括主动光学捕捉和被动光学捕捉，主动主动光学捕捉采用红外led，速度大于240fps，工作环境限制较小，在室外也能操作，但容易导致运作变形，精度较差；被动光学捕捉慢一些，但是不需要在跟踪物上通电，问题就是成本高，需要大量帧率高的摄像头，被动光学式的技术相较成熟，一般情况下，被动光学式的实用性更强，应用范围更广，综合性能（动作精度、适用性、可拓展性、便捷性）更好些。

总体来看，光学捕捉相比惯性捕捉优势还是比较明显的，就是精度，目前主流的技术基本可以做到精度在毫米级别。但是光学动捕通常无法提供实时反馈，同时，源于光学系统的数据往往包含误差以及噪声。存在成本高昂、安装要求高、对空间结构要求高，不能有遮挡等问题。

而且不管是光学动捕还是惯性动捕，现阶段在虚拟交互上还存在许多难题：

从技术角度来看：

技术难点主要是延时，以及信号噪音导致的动作抖动，而且无法实现双手合十。

从产品角度上来说：

从心理学角度看，在虚拟环境中，人如果没有感知，动作会缓慢并延迟，无法待很长时间。而且很容易形成恐怖谷效应，出现类人却不是人的现象，让人极为不舒服。所以动捕产品绝对不是只要出个动作就可以，而是要真的像人。

视觉动捕

不同于上面动作捕捉的方式，视觉人体动作捕捉是通过高精度的相机从不同角度对运动的目标进行拍摄。当拍摄的轨迹被相机获取之后，程序会对这些运动帧进行处理和分析，并最终在电脑中还原出追踪目标的轨迹信息。

这种捕捉方式和传统动捕最大的优势就是不需要任何的穿戴设备，约束性很小，可以通过软件模拟计算出人体数字骨骼的关节点，再基于卷积神经网络的学习估计出做动作时骨架姿势的变化，随后在骨架模型上渲染出整个人身体的轮廓。

但现阶段的缺点是误差是几度（相比传统动捕的1度以内）,空间误差厘米到十几厘米（主要受到相机个数和动作是否自遮挡决定）。但是相比传统动捕技术高成本高要求，视觉动捕极大地降低了使用成本和门槛。而且视觉的自然交互体验感最好，人类的交互方式终究是以人的本能为主，在未来必将成为主流。

视觉动捕的技术困难与阶段目标及突破

虽然视觉动捕技术最近几年一直有在被国际顶尖团队研究，但基于关节型角色的建模和动画制作仍被视为一项艰巨的任务，当角色具有真实的人类外观时尤是如此，因为人物角色的正确表达需要处理多个问题。

究其原因：

首先：人物角色的外观已为人们所熟知，这使得每个人都成为了苛刻的观察员，稍有不自然，就会被迅速察觉。

其次：人体的结构尤其复杂，包含了200多块骨骼以及600多块肌肉，当对刚性链接肢体进行全方位建模时，工作量与工作难度就被大大增加。同时，躯体的可变性特征又进一步增加了建模的复杂性。

最后：由于文化、个性、遗传等因素的影响，人类的运动行为有着巨大的差异，这又再一次加大了建模的难度。

面对诸多困难，太平洋未来科技在视觉动捕的研发上，也是几经波折。

太平洋未来科技算法负责人Grey坦言：“我们刚开始入手这个方向的时候，市面上没有任何视觉动作捕捉产品。因此可以借鉴的经验很少，当时也走了一些弯路。

起初，我们参考传统动捕技术认为把相机数量减少到双目是一个选择，但是研发到后期，我们对双目无法处理遮挡以及精度问题不是很满意，因此在保证精度差不多的情况下我们选择了在单目环境下进行研发。这样就在消费端减少了很多硬件限制，消费者只要用手机上的相机就可以进行捕捉，非常方便。”

现阶段，从技术上来看，视觉动捕的需求被定义为捕捉包括面部和身体在内的完整运动。而目前的技术主要关注的是基本的骨骼从正面的运动，而不是其他的运动（如手臂和脚的微妙旋转）。还有从侧面的姿态估计，以及当身体的某些部分没有被捕捉到时，如何猜测姿势。

而在应用上，创建逼真的人体形态和动作已被视为一项新的技术，其应用场景非常广泛。这项研究的短期目标是使这项技术能够应用于许多不同的领域，而长远目标则是开发一套符合电影制作要求的单目/双目运动捕捉系统。在目标实现上可以分三个阶段:

第一阶段是静态三维姿态估计，它常被用于医学领域，如身体健康状况检测，它可以检测病人脊椎是否正常，然后根据检测结果科学判断病人症状，并指导他们的加强肩颈的活动与治疗。值得注意的是，该技术不需要考虑遮挡，由于数据可以在特定情况下采集，所以佩戴时的情况较为宽松，实现起来也相对简单。

太平洋未来科技将静态三维姿态估计应用于普拉提项目（PC端）

在此基础上，我们又继续研究，为了更大限度的减少设备、场地的限制，我们又将PC端移植到了移动端，仅通过手机即可获取人体三维姿态，并且能够准确的防止误检测。

动图中可以清晰看到工作人员身后的保洁阿姨出现时，并不影响原本的检测

第二阶段是动态三维姿态估计，常用于人机交互、身体游戏、运动分析等领域。它过去是由深度摄像头辅助的，比如kinect设备。现阶段已经有技术可以处理一定程度的闭塞和多人情况，但这项技术是基于简化的运动模型，省略了手指、脚趾和头部的运动捕捉。

太平洋未来科技实现动态三维姿态估计，PC端单目3D，可以视频跟踪实现转身依旧动作连贯

第三阶段是动态三维形状和姿态估计，它可以应用于需要对人体姿态进行高精度估计的领域，如3D电影制作等，以降低成本。

因为这些领域对细节的要求极高，使得该技术需要考虑到人体的胖瘦形态，以及微小关节的运动。这便要求建模时不仅要考虑骨骼的运动，还要考虑整个人体的形状，这样才能将三维形状以像素级的精度投影到二维图像上。

另外，骨骼的运动能否符合人体运动学的规律也是一个复杂的问题，单单只有火柴人就会导致驱动的模型出現身体部位之间穿模，四肢自旋出不自然的角度。目前有两种简化的方法来处理这个问题：一是用动作捕捉系统实时记录主要骨骼的旋转角度；另一个是用算法去逆推，比如逆运动学和对抗网络。再者皮肤的可见几何体是否精细取决于细节内容和底层内部结构，如骨骼和肌肉结构。因此，该阶段的技术要求是最复杂的也是最难去实现的。

太平洋未来科技已经能够精确地捕捉动态三维形状和姿态

目前学术界已经在各个以上各个目标上都有相关研究，由于人体姿态的二义性，即同一个2d图像可以代表多个人体姿态，该技术一般需要多视角来实现人体的重构。而且前两种类型不考虑四肢穿模的情况。而第三种不仅可以通过构建人体皮肤的碰撞检测，还可以通过皮肤来约束骨骼位置。由于存在大量的先验信息，研究发现单目的2d信息已经包含足够的3d信息。

以前的研究一般可以分为以上几步

之前大部分的研究都是按照先估计出2D关键点再估计3D关键点的方法来构建人体3D姿态信息，然而这样会遗漏大量的像素级别的信息，比如同样是腿往前或者往后伸，对应2D关键点可能是一样的。估计因此出现A的方法，先估计3D 形状可以把肢体在画面内近大远小的原理考虑进去，然后再通过人体皮肤的约束来提高3D关节的准确性。然而试验结果是四肢并不理想，因为这样的估计缺少了2D点位置的精确约束，只是实现了大概动作轮廓的类似。这样2D点（C）就可以利用2D姿势信息，它不仅可以用作附加信息源，还可以作为通过将估计的3D姿势投影到2D图像来测量精度，并比较误差。然而这样的算法复杂度提高以后计算速度无法实现实时。

此外，还有很多技巧来避免人体测量不切实际的姿势，比如膝盖过度超伸。一种是利用先构建好人体模型来估计姿态，一种是利用GAN网络分辨出错误的姿态。此外还有用时空顺序或者多视角来实现动作的连贯性和暂时的部位遮挡。不过前者会存在延时问题，后者会出现拍摄环境不方便的问题。

近期，太平洋未来科技在视觉动捕上取得了又一关键性突破——通过添加骨骼限制能迅速迁移到手部姿态捕捉，实现实时捕获3d手部姿态，在微小关节动作捕捉上取得了重大突破。

Groud True （左），Predict（中），3d result（右）

当前大部分的3d人体姿态研究都侧重于身体躯干的动作捕捉（缺少手部），而对3d手势的研究几乎没有。但手势作为肢体语言的重要组成部分，准确而又迅速的捕获3d手部姿态，对生动的还原人体姿态具有重要的意义。

The End

标签：博主很懒，并没有设置标签

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章