动作捕捉技术如何赋予“虚拟角色”灵魂?你可能还不了解的动捕幕后在这里!
wuhu专题
文 | Swagblueee
如果你还有印象
应该会记得在《黑神话之悟空》的宣传片里
有这么一段
幕后是由动捕演员kyle演绎的
除了演绎主角之外
还有很多高难度的动作戏
比如翻跟头的大马猴
运动捕捉的出现
为虚拟角色的制作带来了更多可能
让应用领域的边界越来越广
那么
影视动画中常见的动作捕捉有哪些方式?
过去存在哪些技术壁垒?
如今又有了哪些新的突破?
...
今天就让我们通通一起了解
Part 1
什么是动作捕捉?
动作捕捉(Motion Capture,也称为MoCap),是通过捕捉记录演员的动作和身体表演,将其数据转化为CGI角色运动动画的一种技术驱动型方法。MoCap可以跟踪各种类型的运动,例如身体动作和面部表情。动作捕捉技术现如今已经普遍运用在电影、动画以及游戏的制作中。
非常多经典电影人物都是通过动作捕捉技术塑造的:
《蜘蛛侠》
阿丽塔——《阿丽塔:战斗天使》
灭霸——《复仇者联盟4:终局之战》
《使命召唤:现代战争2019》
巴鲁——《奇幻森林》
浩克——绿巨人
琼斯——《加勒比海盗》
史矛革——《霍比特人:史矛革之战》
凯撒——《猩球崛起》
妮特丽——《阿凡达》
Part 2
动作捕捉有哪些方式?
影视动画中常见的动作捕捉有哪些方式?
如今,市面上有两种常见的运动捕捉方式。
第一种是光学式运动捕捉,是通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务。常见的光学式运动捕捉大多基于计算机视觉原理。
一套典型的光学动作捕捉服
第二种是惯性式运动捕捉,是将感应芯片封装后绑定在身体的重要关节点,通过芯片捕捉到关节点的多种变换,进而通过算法分析转化为人体的动作数据。
一套典型的惯性式运动捕捉服
那么如何根据实际情况来选择更加适合的动作捕捉系统呢?
一般来说,主要从捕捉场景和精度需求来考虑。
根据捕捉场景
光学式动作捕捉设备的捕捉的范围受摄像头数量的限制,易受环境影响。所以,光学式动作捕捉适用于运动范围固定且环境中无噪点的区域。相比光学式动作捕捉系统,惯性式动作捕捉对于大范围的运动更加方便易行,且不受光线、环境等因素的影响,适用于环境复杂且运动区域较大的数据采集。
根据精度需求
现有市面上的光学式动作捕捉的设备已经可以达到毫米级别的精度,而惯性式动作捕捉的精度与光学式目前仍存在差距。通常科学研究中动作捕捉以及电影中的面部表情等的拍摄都是优先选择光学式动作捕捉设备;如果是简单的关节或者动作捕捉,则通过采用惯性捕捉方案。
光学捕捉系统与惯性捕捉系统对比一览表
如何利用视频素材进行动作捕捉呢?
那有没有一种方法可以在没有硬件或运动数据的情况下生成运动捕捉动画呢?
来自NVIDIA、多伦多大学和Vector Institute的研究人员提出了一种新的动作捕捉方式,该方法取代了昂贵的动作捕捉硬件。它仅使用视频输入来改进过去的动作捕捉动画模型。
这项创新技术仅通过视频输入使用AI捕获运动数据,并将其转换为数字化身。然后他们可以给“化身”一个物理模拟,以消除脚滑动时标记点丢失或闪烁的传统挑战。
该技术框架通过优化不变的接触行为(包括计算接触力)强制执行物理约束来改进复杂姿势的预估。然后,在精炼的姿势上训练一个时间序列生成模型,综合未来的运动和接触力。结果表明,基于物理的细化进行姿势预估和视频的运动合成,结果都显著提升了性能。该技术有望能够通过利用大型在线视频资源来实现更具可拓展性的人体运动合成。
AI使用动作捕捉捕捉动作,将人体运动转化为数字模型动画
并提供物理模拟以准确模仿现实生活中的动作
这个框架让人们离在虚拟世界中工作和娱乐更近了一步。它将帮助开发人员以更经济的方式制作人体运动动画,并提供更多样化的运动。
VR领域有什么动作捕捉“黑科技”?
作为全球元宇宙领头人,Meta(Facebook部分品牌更名而来)在VR设备开发领域一直处于最前端。旗下Meta Quest开发的VR设备选择了Inside-Out技术,仅使用一部头显和两个手柄就完成了对用户上半身的实时动作捕捉。
但随着用户需求的变化以及技术对虚拟世界的探索,Inside-Out技术下全身动作捕捉成为难题,并且也一直被网友调侃“Avatar没有腿”。
Meta XR的高管Andrew Boswort表示,Inside-Out头显可能无法实现全身追踪。“头显前置的摄像头受限于角度,无法很好地捕捉用户腿部。同时,我们又想缩小头显尺寸,这就导致全身追踪的问题难度更大。
摄像头的角度甚至很难看到用户的脸颊和上半身。现在可以很好地呈现上半身,因为摄像头能够捕捉手臂、肘部、手部,并且我们也了解背后人体骨骼肌肉的运行原理,但脚(由于不能捕捉也不够了解)就显得很僵硬。所以说,我们看到一些全身追踪的案例,也不得不选择Outside-In而不是Inside-Out,这也是我们正在研究的事情之一。”
Andrew Boswort从摄像头角度和捕捉技术两方面,阐释了他认为无法使用Inside-Out实现全身追踪的原理。随后,他也从用户的角度指出目前实现VR全身追踪的不合理之处(或者说Quest短期内不会加入全身追踪的原因)。
首先,额外的成本。Andrew Boswort谈到:“准确地追踪用户的腿是非常困难的,并且仅从物理的角度来看,使用现有的Inside-Out头显基本上是不可行的。不过,你可以使用Outside-In进行身体追踪——但这需要额外的配件、额外成本还需要花精力配置,这是一笔不小的开销。”其次,糟糕的用户体验。他认为,如果用户看到腿,但它不是很合适,表现很畸形,“这是一种非常糟糕的体验。”
事实上,就目前来看全身追踪对于主流游戏品类的影响非常有限。因为目前大部分游戏中开发者会通过IK反向动力学技术,让头显和双手柄构建一个上半身的身体形象。而下半身则通过动画来处理,亦或是没有下半身。
对于大部分游戏来说,这样的配置是足够构建一个可信的虚拟角色的。因此就目前主要的热门游戏来看,全身动捕技术的使用场景还是很小。
如今业内的VR动作捕捉技术开发思路基本一致,都认为应该在现有的基础上把交互做到相对完美,再去考虑加入更多部分的体验。对游戏来说,在统一交互模式的基础上先能把品类都发展开来,然后才是解决完美的手和视觉体验,所以对于全身动作捕捉难题的探索还是未来的事。
动作捕捉技术一般包括身体动作捕捉和面部动作捕捉,其中身体动作捕捉中的手指动作捕捉又相当棘手。下面就分别从身体、面部、手指的动作捕捉技术探寻一下最新的前沿发展。
Part 3
身体运动捕捉如何克服多人互动中的穿模障碍?
随着技术的推动
IP商业发展等新方向的开拓
虚拟偶像为代表的虚拟人技术
愈发普遍地进入到大众的日常娱乐生活
codemiko虚拟形象和幕后主播同步直播
虚拟偶像的形象是虚拟的,她们通过动作捕捉技术来进行表演,她们真实的性格特点则是通过表演者的语气,丰富的表情及肢体动作以及塑造的虚拟形象来呈现。
从虚拟偶像看身体运动捕捉技术存在什么问题?
在涉及多人同台表演时,虚拟人之间的互动动作往往存在穿模、不自然等问题。
于是,来自东京工业大学的研究人员就开发出了一种新方法,可以让虚拟人之间的互动看起来更加真实,引发了无数网友围观,并获得了8000网友狂点赞。
该项技术下的两个虚拟角色动画中,面对不同的下手力度给到对面的虚拟人的反应(即身体摆动的幅度)也会跟着不一样。
该团队是如何解决多人运动捕捉穿模问题的呢?
首先要明确是出现穿模以及不自然问题的根本原因是虚拟人背后的扮演者并不会在互动时真的和对方扮演者发生身体接触,所以最终动作就很容易不自然。
虽然通过简单的物理模拟可以解决这个问题,但是会导致动作延迟。东京工业大学便提出先通过物理模拟来计算动作产生时对方虚拟人可能受到的力,然后给虚拟人自动生成、“脑补”出相应动作,再结合前馈控制来减少跟踪延迟。
整个系统在Unity上开发完成,由两个物理模拟模块组成,一个是主模拟,另一个是计算跟踪扭矩(tracking torque)的模拟。
简单来说就是一个负责计算需要产生的扭矩,另一个(也就是主仿真模块)负责让虚拟人执行相应的身体摆动幅度。
这样一来,就能在背后的扮演者并未真正接触的情况下,实现虚拟人之间无延迟的互动,并产生合理的身体反应。除此之外,该方法还能自动生成让虚拟人恢复到原始姿势的动作。
Part 4
面部捕捉技术如何在实时写实方面进行新突破?
近日,LBM digital creations在Youtube上发布了一条关于面部捕捉的测试视频。
测试视频中,虚拟模型的制作非常精细,几乎和真人无异。对于面部表情动作的还原也是非常真实,就连肌肉的微妙变化也复原得很流畅生动。
LBM digital creations发布的面部实时捕捉测试
眼部运动细节特写
说话时的嘴部运动
其实不久前来自日本的CG大神Hirokazu Yokohara也曾分享了他利用MAYA+换脸软件就实现了实时写实面部捕捉控制系统,其面部肌肉的运动变化十分细微真实。
相关拓展阅读:别骗我,这真不是照片!?虚拟人都可以这么玩了?
这么真实的实时写实面部捕捉系统演示在网上迅速走红,网友惊呼“效果好得有点可怕”。
这套系统中,MAYA本身是自带一套面部绑定系统的,这里的换脸软件就是曾经爆火的DeepFace Live,它可以非常真实得把直播时的人脸实时转换成任何其他角色的面部。
不过后来有人用DeepFace Live做了些“羞羞的事情”(色情产业),引发了全球性的争议,迫使其创始人不得不放弃了这个项目。
事实上,国内对于实时高精度面部捕捉技术也已经所建树。
原力数字科技是国内最早成立的CG领域公司之一了,近年更是依托在动画制作领域长期积累的深厚技术经验,乘胜追击自主研发出一套基于深度学习的数字人面部动画解决方案,实现了从智能计算到动画生产制作的应用落地。
(原力自主研发的新一代高速面部扫描捕捉系统Lightstage)
这套解决方案总共包含三个模块,分别是面部动作采集,面部动画绑定以及声音驱动。
(1)面部动作采集——OF_DeepFace
基于神经网络的无标记点实时面捕捕捉系统
(2)面部动画绑定——OF_DeepRig
基于神经网络的面部绑定加速模块
(3)声音驱动——OF_Deep_Audio2Animation
基于音频分析的面部动画驱动模块
相关拓展阅读:原力数字科技基于深度学习的数字人面部动画解决方案!
国内另一家优秀的CG公司FACEGOOD也致力于面部捕捉技术,经过长达五年的潜心研究,终于也在去年正式推出面部表情动画全流程产品——Avatary软件及配套硬件。
于去年11月在海外期刊发表的一篇论文中宣布已经把数字人高精度实时面捕捕捉技术搞定了,引起了业内的广泛关注。
FACEGOOD团队在论文中提出他们的实时面捕算法只需要一个普通的摄像头就可以达到和离线一样的精度,并且记录的面部数据可以实时进入后续的精修阶段,大大提高了面部动画的制作效率。
实时面部捕捉展示
相关拓展阅读:FACEGOOD公布数字人高精度实时面部捕捉新成果!
国内的CG行业刚刚开始接触技术工业一块,研发个体工作室工具是工业化的开始。只有系统性的工业化流程加每个板块的研发才是CG技术的核心竞争。
相信迟早有一天,国内的企业会在CG模块的技术领域跟上欧美大厂市场。
Part 5
手指捕捉技术如何提高精度与质量?
随着元宇宙概念盛行,在VR、手势识别和触觉技术的发展以及对虚拟角色准确手指表现的需求日益增加的推动下,手指动作捕捉方面的研究和创新越来越多,这也帮助动画师解决了对于手指微小细节动作的关键帧处理难题。
事实上,手指跟踪正在成为人类运动捕捉或需要控制某种界面的几个相关领域的支柱技术。手指追踪现在是游戏、VR、虚拟游戏、生物力学、远程交互、手语以及现场音乐会或直播活动等娱乐活动的关键部分。
就视觉效果和动画而言,手指运动捕捉技术可以用于几乎任何拥有某种手和手指的 CG 角色。许多精细的动作表演如果是通过传统的关键帧动画方法制作那绝对是一件既费时又费力的“大工程“,但是如果使用动作捕捉技术,就可以轻松地让他们露出真实生动的表情,流畅得握住物品,甚至做更精细的事情,比如演奏乐器等。
为了深入研究手指运动捕捉的世界,特别是在视觉效果和动画方面的应用,该领域的四家领先公司——StretchSense、Manus、Xsens和Rokoko给出了他们最新的专门用于手指运动捕捉的手套产品以及他们对行业的发展状况。
现阶段的手指运动捕捉方法有哪些?
对于视觉效果和动画从业者来说,使用专业的手套是进行手指运动捕捉的最主要方法,原因是使用“可穿戴”的身体和面部捕捉硬件往往更加适合现阶段大部分工作室的VFX和动画生产流程。
除此之外也有其他的手指运动捕捉解决方案,包括光学手部跟踪、基于计算机视觉的设备以及神经信号跟踪设备(后者的一个例子是 Facebook Reality Labs 的基于手腕的输入设备,仍然是一个研究项目)。
是什么让动画制作中的手指运动捕捉变得棘手?
对手指进行运动捕捉是十分困难的。首先是因为我们的手指运动的灵巧性,我们可以快速做出一系列微妙又复杂的动作。其次是当我们的手指覆盖到其他手指时,或者当我们将手放在背后时,可能发生因为自我遮挡或其他物品遮挡导致的取样点检测不到而发生“漂移”的错误。
另外随着时间的推移,”漂移“导致手指的跟踪位置会发生微小的变化,这些细小错误累计也会严重影响动画的流畅性。这些都是使手指动作捕捉变得困难的原因,也是为什么有几家公司试图解决它以实现最准确的手指运动捕捉。
Manus旗下的PrimeX 手指运动捕捉手套
Manus的首席执行官Bart Loosman 指出:“这是一个绝对极端的挑战,因为我的手和你的手在本质上是不同的。”该公司生产Prime X系列手套,并与 Xsens合作提供Xsens Gloves手套装备。
“拥有一款能够根据手指长度进行校准和调整测量值的产品非常困难。”Loosman 补充道。“每根手指都可以以三种方式弯曲,那就是三个弯曲点。因此,最终可能不得不战略性地放置传感器,然后仅推断某些部件的作用。”
Manus与Xsens结成合作伙伴关系
共同开发用于手指运动捕捉的手套
Manus与Xsens合作开发的手套
旨在构成Xsens MVN动作捕捉生态系统的一部分
另一个挑战是身体运动捕捉领域的创新已经持续多年,而手指运动捕捉相对较新。“客户在进行手部动作捕捉时,期望获得与身体运动捕捉相当的质量,”Xsens 3D身体动作高级业务总监 Rob L?ring 评论道。
“现在手指追踪方面仍然有很多工作要做,这也是我们与 Manus 合作的原因之一——我们想看看在完善我们的产品方面能走多远。”
“身体运动在某种程度上是可以预测的,”Balslev说。“散步就是散步。我可以告诉你散步是什么样子的。掷球就是掷球。但是试着向我描述一下你走路时你的手指在做什么?手指运动当然对自己来说是完全直观的,但是预测和描述你在说话或摔倒时,手指将产生的运动则一点也不直观。
这也是为什么为手指动画制作关键帧如此困难,以及为什么需要专门的手指运动捕捉解决方案对动画师来说是至关重要的。”
通过Manus的Xsens套装及手套制作动画
如今的手指运动捕捉有哪些技术性难题?
Manus自己的Prime X手套和Manus的Xsens手套中使用的手指跟踪技术依赖于弯曲传感器和惯性测量单元 (IMU),并包括触觉功能。与此同时,2020 年开始提供Smartgloves 的Rokoko也依赖于IMU传感器,类似于其Smartsuit Pro动作捕捉套装。Rokoko首席执行官 Jakob Balslev 评论说,涉足手指运动捕捉迫使团队重新考虑他们过去在身体运动捕捉中使用的许多逻辑。
制造StretchSense MoCap Pro手套的StretchSense的首席执行官Benjamin OBrien进一步指出了手指追踪技术中的一些固有技术挑战。他建议,诸如IMU和光学标记之类的解决方案可能并不总是为动作捕捉的动画表演提供所需的精度,至少它们本身不能。StretchSense 手套有些独特之处在于它们结合了拉伸传感器(本质上是电容式橡皮筋),而手套的手指跟踪利用了与机器学习元素相结合的姿势检测系统。
StretchSence利用拉伸传感器技术开发的手指运动捕捉手套
“我们拥有12年的可拉伸传感器技术传统,其运行原理与市场上可以非常准确地测量手指的任何其他产品完全不同,”OBrien 解释道。“这款手套的理念是尽可能生成高质量的动作捕捉数据,从而大大减少后期制作中的调整负担,使它们对工作室或艺术家来说尽可能经济实惠。”
手指动作捕捉技术在未来会有哪些技术创新?
现在的手指运动捕捉领域正在迅速发展,新技术不断开发和完善,市面上许多公司也将自己定位在行业的不同价位上。例如,StretchSense一般处于市场价格较高端,Manus和Xsens 在价格方面处于中等水平,而Rokoko在定价方面处于较低端。
穿着Rokoko Smartsuit Pro和Smartgloves的动作捕捉表演者
创新以许多不同的方式继续进行,正如 Baslev 解释的那样,Rokoko 正在为其 Smartgloves 进一步调整手套背后的技术,以引入一种混合跟踪方法,以解决 IMU 可能发生的常见手指跟踪挑战,如漂移和遮挡。
Rokoko智能手套,手套内包含了七个IMU传感器
“我们推出了基于与我们的套装相关的技术的第一代手套,即 IMU 传感器。但在我们交付的产品中,已经包含了另一种基于电磁场 (EMF)的技术。手掌上有一个小盒子,可以在手周围产生一个频率场。它将为手指的运动提供额外的准确性。这将是我们从一开始就梦想的“无遮挡、无漂移”的解决方案。对于已经收到手套的每个人来说,只需进行软件升级即可。”
一套完整的Rokoko Smartgloves设备
“我们的进一步计划是“房间”级别的东西,一种类似房间线圈的设备。”Balslev 补充道。“它会产生更大的频率场,让你在任何地方都有绝对的精度。不会有遮挡,因为它是基于频率的。你可以把手放在口袋里,放在背后,你可以拿起一个杯子,喝完,再放下,它会被保存在一个准确的空间里。我们希望有人戴着我们的手套在 VR 中弹钢琴半小时,并且仍然准确地击键 30 分钟。对于 VR/AR 中的数字交互以及与演员、道具和虚拟摄像机的虚拟制作,这将是一场革命。”
Rokoko智能手套中的七个传感器每个都允许六个自由度的追踪
使用Rokoko Smartgloves进行实时手指运动捕捉的演示
就 Manus 的 Xsens 手套的未来发展而言,该产品背后的两家公司正专注于他们的合作伙伴关系,并从近年来各自在动作捕捉领域所做的事情中学习。
“我们的愿景是提供完美数据的黄金标准传感器技术。”Manus 的 Loosman 表示。“例如,我们认为 Xsens 有一个很好的方法,无需后处理即可获取数据。Manus 正在研究一些机器学习方面的问题,但这更多是为了处理我们当前的数据,并在我们准备尽可能准确捕获的同时使我们的当前数据更好。”
Manus旗下PrimeⅡ 手指运动捕捉手套设计细节图
Xsens 高级业务总监 Rob L?ring 对此表示赞同:“团队希望确保我们真正测量的是表演者的真实动作——全身以及手指。Xsens 当然是在机器学习领域寻找我们可以为之添加的内容。这是一项非常有趣的技术,但我们必须谨慎行事。”
使用PrimeⅡ手指运动捕捉手套演示的实时手指运动
StretchSense手套的未来在于其姿势识别和姿势检测方法的进一步发展,以及他们现有的机器学习技术如何继续成为解决方案的一部分。
StretchScene的MoCap Pro手套
利用拉伸传感器进行手指运动捕捉