数字人 动作捕捉和面部捕捉(Motion Capture)

Xsens动作捕捉 2023-05-10 2560

动作捕捉是在运动物体的关键部位设置跟踪器。英文名称Motion capture,简称Mocap。Mocap应用方面有电影行业、动画产业、运动分析、虚拟现实等。
动作捕捉一般可分为人体四肢动作捕捉、人脸面部表情捕捉、人手动作捕捉[1]三个方面。

简介

我们今天所说的动作捕捉,通常是指在3D游戏或动画中,通过传感器和软件,把真人演员的动作转录成数字模型的动作。

数字人  动作捕捉和面部捕捉(Motion Capture)  第1张

众所周知,动画和游戏中的角色(包括人物和动物)必须要有动作,比如奔跑、跳跃、打斗等等。

数字人  动作捕捉和面部捕捉(Motion Capture)  第2张

在动作捕捉技术出现之前,这些动作都是需要人工一帧一帧画上去的。无论是2D还是3D,动画还是游戏,都要求动画师/动作师根据感觉和经验,一点一点手调关键帧,把角色的动作逐帧模拟出来。

现在的动捕技术,已经从肢体动作推进到了面部动作,也就是我们常听到的“面捕”。面捕的原理和动捕差不多:给真人演员戴上装有传感器的头套,演员的面部表情会被记录在电脑里,生成面部动作数据,然后再把这些数据套用在数字角色上。

面部捕捉表情捕捉

经历了20世纪末的不断完善后,动捕技术在21世纪开始了全面普及。2000年的动画《辛巴历险记:迷雾之外》是第一部完全使用动捕技术拍摄的电影,后来大获成功的《指环王》三部曲实现了全动捕化。如今的好莱坞电影已经是动捕技术的天下了。

动捕技术的优点非常突出。一是效率高,所见即所得,不需要动画师绞尽脑汁去想象复杂的动作;二是成本低,虽然一套动捕设备的价格不菲,但由于可以大批量生产动作,而且速度很快,可以节约巨大的时间成本,平摊到每个动作上往往都很便宜;三是入门门槛低,不太依赖大神动画师,对于小团队来说非常友好。

数字人  动作捕捉和面部捕捉(Motion Capture)  第3张

以下会介绍动作捕捉的相关参数、应用领域,以及常见的动捕品牌

动作捕捉分为5类,声学式、光学式、惯性式、电磁式、机械式动作捕捉5类。而现在主流的动作捕捉类型主要是惯性式和光学式。

动作捕捉解决方案一般都是硬件加软件的组成(光学式硬件是至少三个以上摄像机,软件主要用来计算和后期处理标记点的三维空间位置。惯性式硬件大多都是绑带+若干个IMU)。

光学式主要有被动光学式和主动光学式两种,两者区别就是标记问题,主动标记和被动标记,主动标记自发光,被动标记反射光(涂逆反射材料)。光学式精度高,一个标记点位通过2台以上摄像机拍摄就可以测量出标记点的三维空间位置,但惯性式是通过估计IMU的三维空间位置的,精度自然不如光学式,所以光学式应用的领域大多都是运动估计、电影、动画产业。光学式精度虽高,价格也贵,好一点的系统大多都要百万级。

惯性式主要用的是IMU,IMU主要由陀螺仪、磁力计、加速度计等组成,将IMU放置在人体上,可以测量转向,运动加速度和位置变化。惯性式价格便宜,对于精度要求不高的应用下很适用,所以线下体验店和专业用户大多都会选择惯性式。但是惯性式使用时间一长就会发生位置漂移,这也是一大劣势。

数字人  动作捕捉和面部捕捉(Motion Capture)  第4张

一、动作捕捉技术简介与相关参数

动作捕捉是对物体运动进行记录的一种手段,从技术原理上分为光学、惯性、视觉这主要的三类,这里只介绍光学动捕。

我们会在一些网络视频中看到一个挂了很多摄像头的场地,几个演员一袭黑衣,站在中间表演着各种动作,然后电脑里会有对应的骨骼运动,这就是光学动作捕捉。光学动作捕捉主要设备就是两个,一个是摄像头,另一个是反光标记球(Marker),摄像头会发出特定波长的光,经Marker反射后,每个摄像头里都有Marker的二维坐标,经软件的3D重建算法计算后,Marekr在场地里的三维坐标就能得到。摄像机以一定频率传送坐标给软件计算,那么我们就有了不同时间的Marker坐标数据,时间与坐标就是动捕系统能得到的两个原始数据,据此,软件能计算出速度、加速度矢量以及刚体的六自由度位姿信息。把这些信息导入到MotionBuilder里做修复,再导入到3dMax、Unreal等软件里与模型绑定,就能得到我们常见的动捕动画效果了。

所以频率肯定是一个动捕设备的重要参数,这一点在科研应用中尤其重要,没有高频的数据反馈,就不能达到实时的控制效果。那动捕还有那些参数呢——分辨率、像素、视场角等等,介绍起来实在复杂,我们不妨从实用性需求角度去看参数,首先是精度需求,精度越高动作越准确,体现在参数上是分辨率和像素数,懂摄影的朋友应该能明白,不做过多介绍;其次是实时反馈需求,这在科研和虚拟直播中比较重要,体现在参数上是频率和延迟,频率已经介绍过,延迟是数据从捕捉到给出坐标的时间,一般都为毫秒级别;还有就是捕捉范围需求,体现在参数上就是视场角与视距,这决定了同一片场地所需摄像头的多少,做成本控制时需要计算。

二、动作捕捉技术的应用领域

动作捕捉目前主要应用在两个领域,一个是科研,一个是文娱。大家应该对文娱领域动作捕捉的应用了解地更多一些,我们在网上看到的视频往往是动作捕捉在影视、直播方面的应用。

但动作捕捉最开始是一个科研工具,用于生物力学中的研究。在人或者其它生物身上附着Marker,捕捉其运动轨迹,计算出每个marker的运动矢量,从而得到自己想要的信息。比如医院里会集成一套设备,去捕捉患者的静态姿势和步态信息,从而对其健康状态做监测;一些体育研究所也会捕捉运动员的运动过程,从而对其竞技姿势做相应指导。

科研上除了生物力学领域,还有一种常见的应用场景是自动化领域研究。无人机集群,无人车编队的研究中需要有实时的6自由度信息反馈,以形成控制闭环。光学动捕往往是解决这一问题的较好方案。

在文娱领域,动作捕捉技术能大大提高动作资源的产出效率,并且使动作更加真实。效率问题是主要问题,一些RPG游戏中会存在大量的NPC,他们的动作相对主角并不重要,不需要炫丽的表现,但是量又会比较大,这时选用动捕设备去捕捉会有较大优势。我接触过一些音舞游戏公司和3D影视制作公司,也都有自己的动捕棚。

最近元宇宙很火,我没有做深入了解,但是接触过动捕在虚拟直播和VR领域的应用。简易的虚拟直播对设备精度的要求并不高,一套惯性动捕甚至是视觉动捕就可以解决肢体的捕捉问题,面部表情捕捉用苹果手机自带的ARKit来做就可以,在直播平台上搜虚拟主播会发现有很多这样的内容。VR领域我曾搭建过一个简单的场景,在眼镜上放几个Marker,再把坐标对应一下,人就可以在虚拟场景里自由探索了,如果手上拿了枪或者刀的模型,也可以捕捉下来对应到场景中,形成一种更有趣的交互。

三、国内外常见动捕品牌

动捕技术是国外传来的技术,知名品牌都在国外,光学式解决方案比较出名的,国内:Nokov、uSens、青瞳视觉,国外:美国魔神(Motion Analysis)、英国Vicon,美国OptiTrack,还有Xsens是惯性动捕,其它的光学动捕各有特点。

魔神和Vicon差不多,技术最强,解决方案最多的厂商,但同样价格也是最贵的,具体有多贵,可以自己去官网看看哈,一般是国企或者不差钱的大企业用,像SMG与腾讯都是用的Vicon;Nokov价格比魔神Vicon便宜点,但是顶级的硬件摄像机方面做的跟魔神和Vicon差不多,Optitrack价格便宜点,精度不如上面三个,已经被中国的利亚德收购,在我看来是性价比最高的,各参数都够用,重点是影视游戏领域的解决方案完善,大多数影视动捕棚配的都是这个;Qualisys解决方案主要集中在生物力学上,水下也能做,算是冷门中的高手吧;魔神已经死了,我说的哈哈。

国内光学动捕从南到北主要有三家,瑞立视、青瞳视觉、度量科技,其它还有不少我背不过来了,不过这不重要,国内的设备主要特点就是便宜,但稳定性和解决方案的丰富度会差些,毕竟外国的动捕技术发展那么多年,肯定成熟一些。惯性的有诺亦腾,印象一直不错的。

这四大厂家最好的摄像机配置就如下图,一般帧率越高,分辨率越高,延时越低,动作捕捉系统精度方面自然更强啊。举个例子,一般传感器的分辨率越高,从标记中获得的细节就越多,跟踪就越精准。

数字人  动作捕捉和面部捕捉(Motion Capture)  第5张

惯性式动捕

介绍完光学式动捕,接下来就是惯性式动捕,惯性式动捕国内:诺亦腾,幻境,国承万通。国外主要就是Xsens。诺亦腾的Preception Neuron系列的Preception Neuron Pro和Preception Neuron 2还是蛮不错的,也比较有市场。Xsens是惯性式动捕的开山鼻祖,他们根据不同的应用有不同的动捕解决方案(软件:MVN Animate,MVN Analyze 硬件:MVN Link套装,MVN Awinda)。

挑战

影响数据精度的三大因素[2]

  • 镜头分辨率:被捕捉的Marker点在镜头画面中以像素形式呈现,当这个点在镜头中越接近圆形,它被提取到的坐标就会越准。
  • 镜头频率:镜头频率越高,相同时间内采集到的图像数据越多,得到的三维空间运动轨迹数据也就越精确。
  • 镜头数量:镜头的数量越多,获取到的数据就越稳定。

数据精度直接影响被捕捉物体的点速度数据、点加速度数据、刚体六自由度数据。NOKOV度量科技可提供多款型号光学动捕设备,根据不同制作需求使用。其中MARS 12H 动捕相机可达到分辨率1200万像素,频率300赫兹,作为科学级动作捕捉设备,可轻松提供最细腻的动作细节。”

难点

  1. 动作过渡transition

动捕数据处理,最难部分之一就是人类动作本身做不到严格归位。也就是说你每跑出去一步,落脚的点可能都略不一样。这样动作循环的时候要手修动捕数据到衔接POSE相同。我们找遍了国内的动作外包,所有号称能动捕的团队,都没有这方面的经验。让我们自己研究,效果和效率不见得就比手K强多少。

2. 人力成本巨大。

其实也可以认为还是数据处理的问题,上面是难,这个是繁琐量大。动捕原始数据帧间隔是不固定的。因为动捕最初为电影服务,电影不需要你有固定的帧率。但是游戏动作需要稳定的帧率做融合、做动作变速等等功能。于是所有动捕数据都有个巨大的工作量,需要去人力抽帧优化原始数据。人力成本可能和重做一条差不了多少。

3. 找到合适的演员很困难。

我们找不到合适的渠道,找合适的演员来做这个事情。直觉上,军事类游戏,找个军人可能比较好。于是找了半天找到个现役军人,去棚里撸一遍,最后出来的结果,我们自己都觉得还不如手K。真实是真实,但是欠缺表演,标准可能是标准了,不帅。国内的武行武指水深,我们还摸不清里面的门道。而且人家自己也是各种影视经验,完全没有游戏相关的经验,沟通成本巨大。

参考

焕诺企管:动作捕捉技术综谈

艺类:什么是动作捕捉(Motion Capture)

艺类:什么是转描(Rotoscoping)

ShuZyc:动作捕捉技术综述

https://www.zhihu.com/question/279304898/answer/456614542

NOKOV度量动作捕捉:影视动画特效制作中的光学动作捕捉

Gir市场调研报告:2022-2028全球动作捕捉手套市场现状及未来发展趋势

参考

  1. ^https://zhuanlan.zhihu.com/p/551569822
  2. ^https://zhuanlan.zhihu.com/p/558093107

The End