动态捕捉是如何运用到游戏制作中的?

Xsens动作捕捉 2022-11-01 10916

去年,《王者荣耀》推出上官婉儿-梁祝皮肤。在这款皮肤的制作过程中,我们对越剧名家茅威涛进行动作捕捉,让“徒弟”上官婉儿在游戏内原汁原味地表演出越剧的身段动作。

实际上,自2009年起,我们就开始使用动作捕捉技术来制作游戏。从端游时代的《御龙在天》《逆战》到手游时代的《穿越火线:枪战王者》《使命召唤手游》,这项技术正在越来越多地应用于天美游戏的开发当中。

我们请到了来自天美工作室群的

,Zach在天美投身动作捕捉工艺,通过一些项目做了不少探索。通过本文,他将和大家分享一些与游戏动作捕捉相关的经验。


为什么要用动作捕捉?

工艺的革新带来制作方式的变化

近十年来,大家都能看到美术制作工艺的变化。

从游戏渲染结果上来看,最明显的就是模型面数和贴图精度的提升,从本来只有一张固有色贴图,发展到今天的贴图组:固有色、金属度、粗糙度、法线、高光图等多个贴图共同起效。

制作贴图的方式也有了极大的变化。2007年,我刚入行,我记得那个时候模型组大量应用"Body Paint"工具手绘固有色贴图,而现在都是Substance的天下了,甚至有部分主动学习的同事,已经开始学习Substance Designer,使用程序节点来生成贴图。

建模方面,从纯Max手工制作,也早已经革新到了ZBrush雕刻流程。现在自动拓扑越来越好,大家总结的多边形编辑经验已经被模型师吸收为内功。

“他作弊,他用ZBrush!”

坊间流传着这样一个梗:曾在育碧工作的一位模型师,被刚刚上市的ZBrush所震惊,主动学习ZBrush,成为第一批使用ZBrush的用户。借助这个强有力的工具,他的工作效率和精度明显超于其他模型师。但这引来了嫉妒和吐槽,传言开始议论他:“他做得当然快啦,他作弊,他用ZBrush!"

美术工艺流程的提升,变化之快之大,短短几年过去,这样的说法在现在看起来,已经是相当可笑。现在没有模型师敢说自己不会用ZBrush了。

对应的动作制作工艺,受电影行业影响,动作捕捉这种工艺被慢慢引入到游戏行业中来,并且在一些3A大厂得到了极好的应用,并在游戏制作过程中起到了关键作用。

游戏美术师已经证明自己是一群喜欢并且善于改变自己工作方式的艺术家,他们总是追求用更快、更高精度的方式,来完成美术作品。

模型师群体通过十年进取实现了巨大的工艺革新,他们并没有对手绘贴图世界里曾经积累的手艺“依依不舍”,而是将这些经验总结成审美素养,展现在新的PBR制作流程中。

既然模型师可以做到,我认为游戏动画师当然也可以做到。

个人认为,动画师不应该抗拒动作捕捉这种新的工艺,但也不必一味地崇拜。

当市面上出现了新的实现动画的方式和方法,具备职业精神的动画师需要带着开放的心态去学习,从而提高和积累自己。另一方面,他们也需要明白,工艺不能替代设计,所以不能因为懂了这门工艺,就忽略自己对于动作在设计和审美上的关注。

动作捕捉作为一种工艺手段,通过获取演员真实的物理运动,得到基本的运动信息。在此基础上继续做艺术加工,本质上还是动画设计类型的工作,只是实现方式有了变化。相对于纯手key动画,多了采集过程。

工作中动画师仍然需要思考动作设计、动作风格、画面效果,打交道的还是动画帧、时间及空间的变化与对比,这和模型师从手绘贴图世界进入PBR世界的工艺升级类似。

应用难度和数据精度的性价比平衡点

以全球头部动捕系统Vicon品牌为参考系,光学动作捕捉技术发展已经有30年。不得不承认,从动作捕捉刚起步的时候,到2008年左右,动作捕捉系统都是属于比较难操作、需要长时间培训的工种,捕捉条件也受到各种客观条件的约束。

比如,2003年左右,国内游戏厂商采购了第一套光学动作捕捉设备,即使已经选择了最好的品牌,但应用起来仍然性价比不高。问题主要体现在:拍摄前准备时间较长;软件自动化功能相对少;手动修复点阵比较慢等原因,实际应用制作效率提升并不明显。

从精度方面看,2000年左右,摄像头精度和性能都没有经历近几年的巨大提升,得到的数据精度有限,提升动作资源精度不如今日明显。

易用性数据精度两个属性画成折线图,我们可以得到如下的图表:

动态捕捉是如何运用到游戏制作中的?  第1张
使用难度 VS 数据精度

我们可以看到,随着动作捕捉技术的发展,动作捕捉技术的使用难度在逐年减低,数据精度在逐年增高。

2015年左右,动作捕捉的易用性,对应动作捕捉的数据精度,已经形成了某种正向的性价比。那么2015年之后,动作捕捉技术的引入也就成为了一个越来越优的选择。

这些年,革命性的升级有两个大因素:Vicon发布了硬件Vantage系列摄像头,以及配套软件Shogun的革新。这两大因素解决了动作捕捉过程中的大量问题。

动作捕捉变得更容易操作,精度也更上了一个台阶。多年迭代积累的量变促成了质变。

动态捕捉是如何运用到游戏制作中的?  第2张
Vicon 2015年发布的Vantage系列摄像头
动态捕捉是如何运用到游戏制作中的?  第3张
Vicon2017年发布的软件Shōgun

因为这两个革命性的提升,Vicon将它的对手品牌(如Motion Analysis,OptiTrack等)甩开了更大差距。

Vantage摄像头分辨率达到1600万像素,每秒钟采集120帧。综合性能更好、更稳定的LED显示屏幕也可以给使用者显示更多镜头信息。此外,这个版本继续发展红外线波段采集,让捕捉可以在阳光下进行。

我还记得老式的动作捕捉室需要通过窗帘隔绝外部光线,而新的系统完全不再有这样的场地要求。此外,演员也不用长时间面对摄像头LED补充的红色可见光,眼睛的舒适度得以提升,表演效果也因此受到更小的影响。

总结来说,软件版本Shōgun大大得提升了录制效率,解决了之前动捕的几大痛点:

  1. 场地校准时间从原来的30分钟缩短到5分钟。

因为每天的光影不同,之前的软件需要在开始录制前,把每一个摄像头单独调试到它们的曝光度、对比度等阈值,而新的软件再也不需要做这一步,所有的参数已经自动调整到最佳状态,并且没有任何错误几率。扫场和摄像机定位算法的速度也大大提升了。

2. 现场创建角色骨骼从原来的10分钟缩短到1分钟。

之前的版本需要将演员的Rom数据进行后期解算,修复个别的骨骼约束才可以创建完成,而新的版本不需要放到后期解算,演员在场地中简单运动一下,角色的骨架就能被实时地创建。

3. 捕捉时摄像头被震动后,无需进行重新校准。

在之前的捕捉过程中,如果摄像头被意外碰撞或者移动震动后,我们需要从场地校准开始,重新进行所有准备工作。

新版本则不需要重新校准,被震动的摄像头可以以演员场内运动为数据支点,从其他摄像头的方位信息反算出新的位置方位。

4. 标记点被遮挡后,动作数据可通过周围的标记点,推算出正确的信息。

在实际表演中,演员身上的标记点会不可避免地被特殊姿态遮挡。过去的解算很容易因为丢点,失去真实运动的数据。而新的软件版本通过智能推算,可以非常准确地还原真实运动。

5. 实时捕捉数据流mcp格式的引入,让捕捉回看减少80%的等待时间。

在捕捉现场,审核人员需要反复查看捕捉数据。在之前的版本中,如果需要查看,审核人员需要进行至少30秒左右的解算,而新的软件版本可以直接查看动作,不需要等待解算。这将给一整天的捕捉进度带来很大的提升。

6. Shōgun1.3版本,开始支持手指动作捕捉,这是动作捕捉不曾达到的技术高度。

动作捕捉老工艺是基本不考虑手指捕捉的,因为手指的标记点距离很近,容易被软件误解成手腕的点。即使捕获到手指的数据,在精度不够的情况下,也难以使用。

对比之下,2019年底最新发布的Shōgun1.3可以做到手指数据的高精度捕捉,这是依托于系统中分辨率足够高的摄像头,同时软件更智能的算法,实现了捕获手指的微小运动。

动态捕捉是如何运用到游戏制作中的?  第4张
Shōgun1.3首次突破手指捕捉
参考资料:

Vicon官方 :https://www.vicon.com/
Motion Analysis官方:https://www.motionanalysis.com/
OptiTrack官方 :https://www.optitrack.com/

光学动作捕捉 vs. 陀螺仪动作捕捉

前面提到的系统都属于光学动作捕捉,光学动作捕捉原理是:基于光从演员身上标记点反射到多个不同位置的摄像机,通过不同位置的成像信息,测算出标记点的空间运动。

惯性动作捕捉则是通过感知演员身上陀螺仪的旋转信息,推算出演员的肢体运动。

光学动作捕捉发展时间比较久,已经广泛应用于电影行业,达到了非常高的精度。而惯性动作捕捉发展还处在比较早期的阶段。

目前惯性动作捕捉主要的劣势在于,推算误差会被积累,捕捉一定时间后容易出现动作姿态偏斜,同时它的优势是比光学动作捕捉系统便宜,对捕捉场地要求低。

效果上相对可以信任的惯性动作捕捉系统是Xsens。

参考资料:

Xsens 官方:https://www.xsens.com/

3A游戏的必备工艺

3A游戏项目和传统的中小型项目相比,有很多不同的地方。在动作制作领域,动作捕捉对解决3A游戏项目中动作制作的痛点,具备天然的优势。

大数量动画制作问题

3A游戏的动作资源数量要远大于传统规模游戏项目的动作资源数量。

举一个简单例子:传统游戏项目中,角色不需要制作起步动作(角色从站立待机动作到行走循环动作之间的过渡动作)。传统游戏一般选择不制作这类动作,而是通过一个简单的待机与行走之间的融合,就能满足需求。

而3A游戏项目为了追求更细腻真实的运动效果,起步动作已经变成了标配。而为了表达出不同起步角度的运动细节,起步动作往往不仅仅是一个单一动作,而是一组动作。在起步过程中,根据起步的角度,融合出一个带角度细节的起步结果。

仅从这个例子中我们就可以发现,3A动作制作实际上是通过大量的动作序列,堆积出来更多运动细节。相对于传统游戏项目,3A游戏的动作资源量是呈指数级增加的

所以动作捕捉工艺恰恰是一种大大提高动作制作效率的选择。动作捕捉虽然仍需要后期加工,但在手工制作之前,动画师已经得到了真实的运动数据作为基础运动,在这个基础上进行艺术加工,制作速度相比纯手KEY,有非常巨大的效率提升。

如果以写实作为风格要求,动捕动画师普遍认为, 动作捕捉的效率应该是一个高级动画师纯手KEY制作的十倍

从项目成本和开发进度来看,动作捕捉通过天然的效率优势,因为这项技术抵消了3A游戏带来的巨大工作量。团队中的动画团队人力数量可能和非3A项目人数相差不大,但是却可以支撑3A游戏的动作制作量级。

保证写实度

追求写实成为了3A游戏的重要标签。从动作真实度上来说,动作捕捉具有天然优势,因为它是基于真实世界的物理运动,得到的数据自然是非常写实的。

所以从团队建设的角度来看,动作捕捉是一个捷径。极其写实的手KEY动画往往只有高级动画师才可以掌控,而团队可能并没有时间等待动画师技能慢慢提高,也没有机会引入大量的高级动画师。

使用动作捕捉的真实动作数据,这给制作写实游戏动作的团队减轻了压力。

动作捕捉如何应用于游戏制作?

需求确认

相比传统的手KEY工作流,需求确认在动作捕捉流程中显得更加重要。

因为后期会引入拍摄和表演的环节,团队大部分时候需要预定场地和演员。如果前期没有明确目标,会导致整个流程混乱不堪。

传统的手KEY流程制作相对线性,需求不确认的时候,团队随时可以停下来做调整。但是动作捕捉流程启动后,计划都已经安排好了,中期调整会让动捕变成噩梦。

我的做法是预先解构动作需求,将游戏策划的文字描述,拆解成具体单个文件,并且预先设计动作融合/切换机制。动作状态机需要提前被设计出来。

以这些信息为基础,动画师在指导演员表演的时候就可以非常清楚哪些动作是融合关系,哪些动作是打断关系。这让捕捉现场的表演审核和反馈都能有所依据。

同一个动作的多次拍摄容易让资产混乱,所以预先做好命名规划,可以让捕捉文件和最终文件有非常清晰的对应关系。在这个思路下,动作拆解表,也成为捕捉现场的“拍摄表”,方便现场逐条跟进确认。

这是我的动捕拍摄表格式:

动态捕捉是如何运用到游戏制作中的?  第5张
动捕拍摄表

我将有融合关系的动作放到同一类“动作细分”中,这样在拍摄时可以提醒自己,这几个动作实际上是一组,表演需要注意其可融合性。

捕捉名字和正式名字非常接近,这是为了后期修数据的时候方便在海量的动作数据库中找到对应的动作文件。后边几个竖列在动捕现场不会被用到,但在整个流程中可以记录每个动作具体到哪一个制作环节。

预先设计动作融合/切换机制可以在拍摄前,与程序策划确认方案的可行性,避免浪费捕捉。而清晰的融合/切换机制,也能帮助捕捉现场判断捕捉是否达到要求。

动态捕捉是如何运用到游戏制作中的?  第6张
预先设计的动作融合/切换的示意图

确认角色性格

明确了需要什么样的动作之后,仍不能盲目开工。我们需要确认角色性格,以帮助我们选择演员和帮助演员排练。这一步如果不做,即使数据精确,动捕得到的动画,可能也并不是美术风格所需要的效果,那么就很可能造成资源浪费。

我的做法是通过一个二位坐标,把角色的性格目标在维度中标记出来:

动态捕捉是如何运用到游戏制作中的?  第7张
场景风格坐标图,具有代表性的游戏场景图案例参考,黄框区域为目标区域。同样的格式可以用来描述角色动作风格。

或者用文字加参考图片来描述角色性格:

动态捕捉是如何运用到游戏制作中的?  第8张
这是一张描述场景风格的指导图。同样的格式可以描述角色动作风格。

选角和排练

明确了需要的动作和角色动作风格之后,我们就可以转身变成选角导演了。这一步在传统的游戏制作中并没有,更接近影视制作,这确实是动捕自然需要的步骤。

当我刚刚开始接触动捕的时候,并不重视选角,我们试着让动画师亲自表演,但我们很快发现动画师无法将他脑海中想象的动作通过肢体表演出来。

“这是我刚才的表演吗?”动画师看到自己的表演数据一般会发出这样的感叹。

尤其是一些需要特殊技能的表演,更需要专业细分领域的演员来表演。

舞蹈类、武术类、军事类、表演类、运动类,这些不同类型的捕捉需求,团队需要选择对应专长的演员。就算同是舞蹈类演员,也需要区分舞种。不同舞种的舞感完全不同,一般的舞蹈演员无法表演他们不擅长的舞种。

同时,即使是最简单的生活动作,比如说话、坐下这样的动作,我也不会随便找同事去演。

因为表演是一门艺术,高标准的表演需要多年积累专业知识和表演方法,当我尝试使用话剧演员表演生活中最简单的动作表演后,我就更加确信专业演员的重要性了。

就算是以塑造同一个游戏角色为目的,我们也会因为表演的专业性,选择不同类型的演员。比如这个角色的生活类动作用话剧演员,运动类动作用跑酷演员,武打类动作用武术演员

这样相当于多名演员共同塑造一个角色,而动画师在其中需要统一不同演员的表演,让不同类型的动作仿佛是同一个角色的感觉。

我选择演员的方式是两步:海选和面试。

海选,是在比较多的演员资料中筛选,确定几个相对合适的人员。面试,我会要求和演员面对面沟通,简单说戏之后,让演员现场进行一段表演,帮助我最终确定人选。

表演能力固然是最重要的,但如果有更多选择,我会考虑另一个因素:身高和比例

优先选择接近游戏角色身体比例的演员,这样得到的肢体运动数据不太容易出现模型穿插或指向不正确的情况。更接近的身材比例,在后期animation retargeting的环节自然会减少不少肢体运动错位。

动态捕捉是如何运用到游戏制作中的?  第9张
演员的身材接近模型身材,接触位置更准确,后期修复工作量少

确定演员后,我们需要提前让演员清楚角色定位,给时间揣摩角色性格,在正式录制前进行一定试演,并获得一定反馈。

演员也需要提前大体了解动作内容,以便对要做出的动作更有肢体准备。如果进行的是运动量比较大的捕捉,演员也可以提前进行体能恢复训练。

在正式捕捉开始前进行排练,可以大大地提高捕捉当天的效率。现场创作需要花时间跟演员现场沟通,纵使会碰撞出一些火花,但录制进度就变得没有保障。

长期占用动作捕捉室进行现场创作,对捕捉资源来说也是一种浪费。

捕捉现场

场地准备

动作捕捉拍摄需要场地校准,在新型的动作捕捉系统场地中,场地准备需要在正式表演前半小时开始,为特殊情况留出处理时间。比较老的动作捕捉系统,至少要留够1小时提前调试。

一些特殊剧情或许需要一些场景搭建,这需要几天时间准备。比如我曾经经历的跑酷动作捕捉,团队需要提前设计跑酷场景,拿施工图给施工队搭建跑酷场景:

动态捕捉是如何运用到游戏制作中的?  第10张
面捕示意图

这个系统的优势是无需在演员的面部画点,算法可以识别人类五官,对于各种软件兼容也做得非常好。一旦演员的基础信息被创建出来,用它来批量生成面部动画的效率极高。

游戏机制动画中的面部表情和肢体运动,一般没有很强的交互,所以可以选择肢体捕捉和面部捕捉先后进行,过程是:制作完肢体动作之后,演员按照肢体动作进行面部动画表演,面部动画合并到肢体动画中进行节奏匹配和精修。

参考资料:

Dynamixyz官方:http://dynamixyz.com/

游戏过场动画捕捉

游戏过场动画是3A游戏的重头戏,制作流程更接近影视工业,使用动作捕捉可以更方便地得到真实表演。

个人认为《战神4》的过场动画捕捉方式是最具标杆化的实例。动作捕捉现场同时录制四份数据:肢体运动、面部表情、摄像机运动和前期录音。

这样一次录制过场动画四类数据的长度、节奏、幅度、情绪等是匹配的,表演更容易接近导演要求,也更方便后期合成和修复。

虚拟摄像机是动捕场地中一种特殊的“摄像机“设备,实际上物理世界没有这个摄像机,是通过在支架上固定几个标记点,组成的一个可运动的虚拟道具。

动捕系统在场景中追踪这组标记点的运动,转化为摄像机道具在场景中的运动,处理后可导入到游戏中得到摄像机动画。一般虚拟摄像机配置一个显示屏,从而让摄像师可以通过动作捕捉的实时渲染在摄像机角度看到角色的表演。

动态捕捉是如何运用到游戏制作中的?  第11张
动作捕捉使用的虚拟摄像机

近几年,随着3A游戏逐渐增多,动作捕捉也越来越多地被大众提及。天美一直致力于研究和提升动作捕捉技术与动捕工业流程,目标是为天美游戏研发提供更好的解决方案。

以上就是过去几年里,我的一些工作经验和感悟。未来我们还会分享更多与动捕相关的经验与看法,请各位多多指教。