推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事

Xsens动作捕捉 2023-05-10 3015

现代动作捕捉(简称“动捕”)是一种虚拟制作技术,它可以记录下真实世界的动作并进行重新定向,以操控虚拟角色或对象。本文将着重探索动作捕捉技术在低成本、本土项目上的运用。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第1张

YouTube内容创作者科里·斯特拉斯伯格(位于左侧“真实摄影机”内的画面中)利用惯性传感器服装、智能手套和面部识别软件通过动作捕捉赋予其虚拟形象Blu以生命。

“现代动作捕捉”方式跟传统动画中的转描有些相似,在转描技术中,真人表演者的动作被拍摄下来,然后用手绘动画描出,由此便让动画人物做出相同的动作。《白雪公主和七个小矮人》以及《灰姑娘》等经典迪士尼动画电影都大量运用了这一技术。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第2张
《指环王》三部曲拍摄剧照:咕噜的动作捕捉

动捕在世纪之交开始进入现代电影制作领域,它可以将全数字化的主要角色转化为动画,用例包括《星球大战前传1:幽灵的威胁》中的加加·宾克斯、《指环王》三部曲中的咕噜、《极地特快》中的所有角色,以及《阿凡达》中的纳美人。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第3张
《阿凡达》剧照:纳美人

随着技术的精进,这一体系开始广泛应用于电影、电视剧和电子游戏当中,近些年更是为 YouTube、TikTok、Twitch等平台的创作者提供了机会,帮助他们完成包含前沿、超现实主义虚拟角色的内容创作。


动捕方式

有许许多多的方式可以令现实动作数字化,其中最广为人知的两项技术就是光学捕捉和带惯性传感器的动捕服装。

前者利用摄影机在标准化的空间内工作,后者则基本是一套独立自足的系统。它们各有优 势,相较之下,光学捕捉的精度更高,但通常也意味着更高的成本和技术难度光学动捕技术是将一组经过精心调整位置的摄影机组成一个矩阵,对准拍摄空间与“基准”标定点配合作业,一个或多个被摄对象会穿着这些带有标定点的莱卡动捕服进行拍摄。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第4张
《猩球崛起》剧照

系统能够独立追踪每一个标定点携带方,包括人、道具、动物和摄影机等。通过捕捉空间内数个摄影机的光学汇聚作用,精密的动作分析和三角测量技术会对动作捕捉数据进行后续提取。

OptiTrack和Vicon就是两家知名的动捕产品服务公司。

有趣的是,这些公司在成立之初并未打算涉足电影制作领域。Vicon的销售、供应和市场部总监杰弗里·奥瓦迪亚(Jeffrey Ovadya)说:“我司的中枢领域是生物力学及生命科学。

举例来说,这项技术可以在脑瘫患儿走路的时候分析他们的下肢动作,帮助医生制定最佳的手术或康复方案,以改善患儿们的整体生活质量。这意味着动作数据需要尽可能的精确,而由于这种数据提取可作用于各种动作,所以该技术广泛适用于工程、机器人、无人机,当然还有视觉特效。”

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第5张
《猩球崛起》剧照

而嵌有惯性传感器的动捕服能够根据传感器直接收集的动作数据传输某个真人演员的动作。对比光学系统来说,它的技术难度和花费通常都会更低,对于没有太多预算的需求者来说是极具吸引力的选择。

眼下,流媒体平台创作者们常会使用这些动捕服,以期通过牺牲一定的精确度来换取更高的性价比。

Xsens和Rokoko是惯性传感器服装赛场上较为著名的两位选手。这些服装里的无线传感器可以用调节绳贴合在演员的身体上,通讯链路另一端的接收器负责将数据传输到电脑上的追踪软件中。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第6张
《猩球崛起》剧照

该软件首先会根据演员的躯体进行校准,确定下每个传感器具体贴合到哪个身体部位上。不论是光学捕捉还是惯性传感器系统,当演员进行表演时,对应的软件都会将其动作重新定向到一个替代他们的数字人像(称为“装置”)上,然后记录数据。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第7张
《指环王》创作剧照

除了对整个身体进行捕捉之外,还有很多方式能够对脸部和手部动作进行捕捉。Faceware等公司制造的头戴式摄影机系统就将高度专业化的头盔装置装配上了摄影机和无线传感器。

Lidar和 TrueDepth更是为iPhone等移动设备设计了前置摄影机,这将在极大程度上为面部捕捉提供更经济的方案。通过在演员的脸上添加标志点,这些系统能够发挥最大的工作效果。

手部的大致动作可以通过光学和动捕服等方式捕捉,而传感器手套系统则适合每根手指的精细动作。这些手套内部嵌入了许许多多的传感器,能够捕捉到细微的关节屈伸和手指伸展。

知名的传感器手套制造商包括StretchSense和 Manus。

虽然很多视频博主会用惯性传感服进行实时动捕,以期达到良好的效果,但是惯性传感器系统收集到的原始动作数据或许没有光学捕捉数据那么精确,大家可能会认为后者更加适合实时动画。

实时动画的数据通常会通过插件在Unreal Engine或Unity等游戏引擎中重定向到某个数字角色上去。

但对非实时制作来说,数据大多会离线处理,以剔除外部动作、减少传感器错误,或是完成渲染出逼真数字角色和生物等细节要求较高的工作。处理后还要进一步调整,将演员的躯体重定向到动物或是幻想生物等与之体型完全不同的数字角色身上,不久前的《猩球崛起》三部曲就采取了这种做法。


动捕创作者

新媒体创作者和网络红人们常常能够以最低的人员成本和DIY级别的预算来达到高质量产出。马特·沃克曼(Matt Workman)和科里·斯特拉斯伯格(Cory Strassburger)就是两位在TikTok、YouTube和Twitch 等平台上将动捕技术运用在流内容中的个中翘楚。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第8张
推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第9张
摄影指导及软件开发者马特·沃克曼利用带光学标定点的服装、标定空间 和动捕摄影机实时展现MetaHuman人物形象


动捕创作之Citizen Meta One

起初,沃克曼的职业是广告片和MV摄影指导,后来他开始对视觉特效、应用开发和实时动画等领域产生兴趣,并最终为摄影指导们打造了Cine Tracer这款可视化和规划工具,该工具包括虚拟产业标准的摄影机传感器、镜头和布光设备。

沃克曼会在 YouTube 和 Twitch平台上直播自己的项目制作过程。他最近的成果是一个叫做“Citizen Meta One”的逼真虚拟真人形象,以此对同好者们感兴趣的动捕技术进行压力测试。这种视频博主们的真人数字形象现在通常被称为“Vtuber”。

为实现Citizen Meta One动画化,沃克曼在自家地下室里搭建了一个不大的动捕空间,内设10个搭载6-12mm变焦镜头的 Vicon Vero 220万像素黑白动捕摄影机,他的头戴设备上有一台iPhone,负责运行Live Link Face 软件。

沃克曼可以将动捕数据直接上传到Unreal Engine里,实时扮演自己通过Epic Games的Meta Human Creator平台创建的角色,并直接将输出画面在多个平台进行流播放。

“Vero摄影机每秒能够捕捉120帧的影像,我会再将这些影像重新取样为30帧每秒的画面,所以最终的动画十分顺畅。”他还说他采用了一个双电脑系统,包括一个带Nvidia A6000显卡的HP Z8 Workstation,和一个搭载Nvidia 2080 Ti显卡的定制电脑。“

其中一部电脑会接收所有输入的动捕数据,再用Unreal运行这些数据,以在Nvidia A6000显卡的帮助下实现角色动画化。另一台电脑则以视频数据形式接收输入内容,将其记录下来并实时进行流播放。

我创作的内容算是比较小众的,但是TikTok 的For You频道和YouTube的Sh[1]orts频道的推送算法成功让许多用户注意到这些内容,为我吸引了一群观众,他们中有跟我同类型的视频博主,有的则是动捕等技术的发烧友。”


动捕创作之《Xanadu》

转战YouTube内容领域之前,斯特拉斯伯格早期的主要工作是3D动画特效师,参与过电影《分歧者2:绝地反击》的VR/360度伴随式实时交互处理工作,以及《少数派报告》和《X档案》中的动画特效工作,那段时间为他积攒了许多辅助经历。

在YouTube剧集《Xanadu》中,他创作了自己的动画VTuber——Blu,以及其他虚拟配角演员,但他所采取的方式与沃克曼十分不同。他并没有进行实时表演,而是首先用一套Xsens动捕服、一双 Manus智能手套和iPhone上的 Live Link Face软件对角色进行捕捉;然后对初始动捕数据进行优化,再在Unreal Engine和 Adobe Premiere Pro里后期制作视频;最后剪辑、制作音乐和声音特效,完成作品。整个过程都是一个人包办的。

该剧集并非以直播形式示出,因此斯特拉斯伯格得以先专注于捕捉表演,然后再一个画面一个画面地选出最佳的虚拟摄影机角度。“我一开始会用Unreal编排走位,这不是样片,因为我在用虚拟模型和摄影机进行布景,它们在最后的成片里是会真正呈现在屏幕上的。”

“当我觉得自己手上有了一个不错的故事的时候,我就到我的车库里去,花一整天时间扮演Blu和其他角色。然后熬夜处理动捕数据,用Unreal里的音序器和电影摄影机进行工作。Unreal里有内置的手持运动性能,我在使用的时候会很审慎,以保证所有画面都尽量自然和迅速。

我会将电子传感器成像区域尺寸的宽高比自定义为2.35,渲染分辨率设定为2560×1088。画面是可以实时预览的,但我还是会用Nvidia 3090显卡将最终的高画质渲染片里的帧率设置为2到3帧每秒。眼下我正在大量学习电影摄影和布光知识,你只有真正应用视觉语言来创作这些东西才会了解到它的作用有多强大。”


技术大众化

动捕技术和工作流程的进步最终实现了这些技术的大众化,但即便目前正在运用这些系统的创作者们通常都有电影摄影、软件开发和实时动画等方面的技术背景,相关挑战依然很严峻。

不过这终究是会改变的,人才越来越多,他们一定会开辟更多的可能性。充满希望的新技术也在快速破土而出,Move.ai就是一个例子,据该公司解释,这一云端机器学习软件工具可以通过GoPro等价格实惠的动作摄影机组成小型矩阵,在无标定点的情况下提取高保真动捕数据。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第10张
推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第11张
斯特拉斯伯格利用动捕技术饰演一个名为Chatterbox的虚拟角色

Move.ai的联合创始人蒂诺·米勒(Tino Miller)称:“我们的愿景是最终将全人类的动作数字化,为游戏、电影、电视、社交媒体和元宇宙领域的内容赋能。目前我们已经用能够提供高保真运动的消费级相机创造出了下一代动捕技术。

网络红人、运动员和名人明星们可以很容易地捕捉下自己的动作,并自行生产3D内容,或 者将个人的动捕数据售卖给消费者,让他们在Roblox、The Sandbox游戏和国际足球联盟庆 典上使用。”


展望未来

“我的圣杯理想就是通过VR实现彻底的沉浸式体验, 并且能够直接在元宇宙中进行拍摄及环境交互。”

放眼网络红人们的虚拟制作未来,沃克曼认为大家对于更高的沉浸度将会产生越来越多的兴 趣。“‘普通’游戏玩家和电影人 /视频博主都有自己的预算,而元宇宙则会带来完全不同的新网络红人和更多的预算。

这就是眼下在独立制作环境下发挥作用的科学和工程级别的软硬件。” 斯特拉斯伯格也认为这些技术有着广泛的潜能。

推开“视觉虚拟世界”之门—关于“动作捕捉”你要了解的那些事  第12张

“我的圣杯理想就是通过VR 实现彻底的沉浸式体验,并且能够直接在元宇宙中进行拍摄及环境交互。在那个电影布景中,你既可以在动捕空间里亲手触摸到道具,也可以用头戴式设备实时看到虚拟空间。

本期内容为《美国电影摄影师杂志》2022-4月刊文《虚拟世界--新媒体内容创作者和动作捕捉》的编选;

本文作者:诺亚·卡德纳

全文完

The End