《第九区》导演尼尔·布洛姆坎普谈 Unity 容积捕获技术在新作《恶灵》中的应用

Xsens动作捕捉 2022-10-14 13517

《第九区》的导演尼尔·布洛姆坎普是一位有视觉特效职业背景的电影人,喜欢创新的VFX 方法。他在新作恐怖题材电影《恶灵》中,大胆尝试将容积捕捉技术用于“模拟”恐怖片中的梦境场景。片中的容积捕捉服务由 Volumetric Camera Systems 提供,充分利用了 Unity的Project Inplay技术(暂定名)——这是一项全新功能,可将容积点云数据导入引擎,进行实时渲染。来自 UPP 工作室的维克托·穆勒 (Viktor Muller) 担任《恶灵》的视觉特效总监(兼执行制片人)。

拍摄梦境镜头时,导演尼尔·布洛姆坎普让演员置身于一组多摄相机阵列的捕捉范围内,而后将以此获得的容积点云数据用于渲染角色形象。目前,《恶灵》中采用容捕技术镜头的总时长居于剧情类长片首位

《恶灵》梦境片段

为何容积捕捉技术对您有如此大的吸引力?您又为何认定此项技术适用于《恶灵》的拍摄?

尼尔·布洛姆坎普:我是做视觉特效出身,难免会关注与计算机图形技术相关的东西。3D 环境能让受众沉浸其中,我对此很感兴趣,这可能也是我喜欢游戏的原因吧。

一般来说,比起游戏本身,我还是更关注“3D 环境沉浸感”这个概念。我认为,清晰度越高,物理效果越真实,沉浸感就会越强,体验感也会更有趣。用容积捕捉技术模拟恐怖片梦境——光这个概念就已经足够吸引人了。

容积捕捉技术也自带类似的理念,虽然我还无法具体表述出来。但想想吧:演员们经过三维捕捉后,就变成了附有 RGB 数据的移动几何体,所有的肌肤纹理、物体表面质感都化为附带的数据——这实在太酷了。当然了,新技术多多少少总会存在问题,但我相信不久之后都能解决。

我喜欢这项技术,我想以某种方式应用。大概两三年前,我就跟洛杉矶的 Metastage 工作室联系过,向他们咨询了容积捕获技术的原理以及如何在电影中应用等问题。从那时候起,我脑海中就有一个念头:“我得弄清楚这技术到底怎么用。”

这么想来,燕麦工作室(Oats Studios)可以说是一个完美的实验平台。在短片中应用这些技术还是相对轻松的,也无需考虑任何合理性,放手去干就行了。所以,新冠疫情席卷全球的时候,我们本来只觉得别闲着,先自费拍一部小体量的恐怖电影。但当时我重提了容积捕捉的念头,想说干脆在一部 2 小时的叙事电影里试试水,看看能不能做成。

《第九区》导演尼尔·布洛姆坎普谈 Unity 容积捕获技术在新作《恶灵》中的应用  第1张

使用容积捕捉技术拍摄时,您第一个解决的问题是什么?

尼尔·布洛姆坎普:目前最明显的问题就是画面故障,毕竟技术还是太新了,不够成熟。于是我悟到,要以一种合理的方式把技术融入到叙事里去,让技术成为故事原型的一部分。这也正是我的处理方式,最终让容积捕捉镜头成为了故事中不可或缺的重要部分。这样一来,清晰度和画面故障问题就迎刃而解了,观众们不会觉得奇怪,反而会认为这是有意为之的特效成果。

本质上,容积捕获技术就是针对单个对象的摄影制图,然后由电脑从实物中提取出一个三维对象。不仅如此,所有的 RGB 数据、阴影和缺损信息等也会和对象一起被提取出来。这个过程一秒钟会发生 24 次。也就是说,所有网格都以独立运算的形式存在,就像一块块粘土,每次处理一帧,互不干涉。从某种程度上来说,这种技术与传统动画的制作方式有相似之处,在每秒 24 帧内通过隐藏与取消隐藏不同对象来呈现效果。你只要一直重复这个过程就行了。

仔细想来也挺诡异的,因为你没法对这些对象做任何调整,数据就是数据,已经被烙进了对象里,无法被人为更改。你可能想选中对象的手部,觉得可以利用某种反向动力学 (IK) 工具进行一些移动,但很遗憾,并不支持这类功能。对象仅仅是一个完全客观的对象。

第二个问题是,不同表面之间完全没有区分。操作起来就像是在一块贴图上放了一堆奇形怪状的几何体。单张画面看着挺好,但在 UV 文件里简直是乱七八糟,看上一眼就头昏脑胀。除此之外,对象的表面之间没有区分,不论是反光、哑光、半透明表面或是次表面,全都一个样。

因此,容积捕捉技术在视觉特效领域中获得广泛运用之前,还需要不断优化完善。此次,我们选择使用 Unity 实现容积捕捉,能够在 3D 实时包内即时查看容捕效果、相机角度、照明情况等等,可以说是无所不能——我太喜欢这些功能了,完全实现了我想做的事,电影的叙事特点也给我提供了实践的可能性。

《第九区》导演尼尔·布洛姆坎普谈 Unity 容积捕获技术在新作《恶灵》中的应用  第2张
在《恶灵》中,Angela 一角由娜塔莉·博尔特 (Nathalie Boltt) 饰演,Carly 一角则由卡莉·波普 (Carly Pope) 饰演。图片由 IFC Midnight 提供

这部电影中,在很多需要给演员导戏的长镜头里,您都使用了容积捕捉技术。您在之前的作品中使用过动作捕捉、模拟捕捉等不同技术来记录演员的表演。那这一次,表演和容积捕捉技术的磨合过程中,有没有什么难点?

尼尔·布洛姆坎普:我们有幸与温哥华 Volumetric Capture Systems (VCS) 工作室合作。他们搭建了一座支架,上头装备了 265 台 4K 摄像机。支架一般呈半球形,但我们需要更多的侧面空间,因此最终的搭建成果是一个圆柱体。我们还另外准备了几座直径为一米的可移动半球形支架,每座支架上搭载了 4、50 台摄像机,在需要面部捕捉时可以拉近拍摄。

说实话,我想不到比这更糟糕的拍摄坏境了!好吧,加上水,情况可能会更糟糕—— 拍摄环境变成半水下,这是我能想到的最糟情况了。在这样的状况下还能完成高质量的演出,我得向卡莉·波普与娜塔莉·博尔特两位演员致敬。

对我来说,之前有一个难点:就是除了通过第三视角摄像机,我无法清楚观察到演员的表演。在这种情况下,本来只能安排专门人员负责第三视角摄像机,时刻准备移动,紧紧跟随演员,好让我从这些第三视角摄像机里获得反馈。因为摄影棚里那 265 台摄像机都是固定的,它们只记录演员进入取景框时候的影像。

也就是说,容积捕捉支架给不了任何反馈;数据运算还没结束的时候,你自然也没有虚拟摄像机影像可参考,只能闲坐着,活像个舞台剧观众。

而动捕(动作捕捉)就不一样了,你自己就掌控着一台虚拟摄像机进行拍摄,演员在不在场,影响不大。而通过容捕获得的数据要经过数个月的处理,才能上传到 Unity 引擎中。可现在,我们拥有了绝妙的实时环境,可以加入虚拟摄像机,直接看着画面就行了。常规的动作捕捉步骤像是直接被略过了,忽然间,你眼前的一切都已经处理完毕了。现在要考虑的就只有“在哪儿布置照明呢?”这样简单的问题了。

从一无所有到万事俱备,似乎只要一瞬间。你不用绑定骨骼和 3D 网格了,也不用做重定向和变形操作了,数据导入即完成,这简直太酷了。但是数据的管理和传输都是绝对的噩梦,想想看,多达 265 台 4K 摄像机拍摄的 30 分钟素材——我们每晚都要下载 12-15 TB 的数据。因此,在自带到摄影棚的 24 台电脑之外,我们不得不让 VCS 工作室提供了额外的电脑,这样才能在第二天早晨顺利开始拍摄。

像您这样有视觉特效职业背景的电影制作人,还有时间与意愿实景取材,再使用 Unity 进行处理吗?

尼尔·布洛姆坎普:我对 Unity 中的实时功能最感兴趣。我之前就说过,我有多么热爱 3D 环境。Quixel Megascans 之类的工具能让你直接在环境中构建合成树叶,实现实时模拟、实时辐射度、实施光线追踪与反射功能。

还能加入音频,这实际上和游戏就有一定交集了。我完全被这种面向观众的沉浸式体验迷住了。

摄影制图技术与之相得益彰,是一种审美意义上的艺术选择,与之而来的种种错误与真实感我都照单全收。如果将摄影制图应用在一处旧谷仓上,那种脏兮兮的质感就会被原汁原味地呈现出来,再有才华的艺术家也很难复现这种真实感。

所以我肯定还是会坚持实景取材的。比起传统的 3D 包,我或许该多学习 Unity 的相关知识。最近我开始接触 Cinema 4D 这样的软件了,多了解些总没错。

您提到了容积捕捉特有的一种“故障感”,那当您处理数据、完善镜头的时候,是怎么把这种特殊质感确定下来的?

尼尔·布洛姆坎普:说实话,我觉得这种“故障感”根本没法更改,除非做视觉特效擦除,不然根本没法做任何改动。在已经有心理准备的前提下,我们直接接受了这个现实。如果将摄影制图应用在静物上,提取出来的图像就会非常干净。你带着佳能 Mark III,绕着一辆老式农场拖拉机走一圈,从不同角度拍上 600 张照片,导入到 RealityCapture 里,就能开始建模了,所有 RGB 数据一应俱全,成果必定不差,模型整体会非常清晰。

如果是人坐在椅子上,理论上可以把摄像机推进到人脸前几厘米的位置,以视频形式进行记录,清晰度就非常高,每根毛发都能看得清清楚楚。

但镜头离人 1 厘米,到 10 厘米,最后拉远到 1 米,随着距离变远,清晰度也会呈指数级下降。想想人物在取景框里的大小,你就会明白,这种下降程度是非常夸张的。在片场直径四米、高度四米的圆柱空间里,演员堪堪能移动,但清晰度已经下降出一道指数曲线了。

我们提前做了测试,大概了解了分辨率的情况,做好了充足的心理准备。我们也都提前预料到了这种充满“故障感”的低清质感,我个人非常喜欢,挺酷的。这种质感在我们的故事里也是成立的。我们没想欺骗大家,在电影里,这种 VR 技术还处于开发早期,并不成熟,只适用于陷入昏迷或四肢瘫痪的人士。在这样的背景设定下,容积捕捉的质感是合适的。

除了全息投影和公告牌,这是我唯一觉得合理的设定了。但情况会改变的,一旦分辨率问题得到改善,容积捕捉技术应该会得到更大规模的应用。

《第九区》导演尼尔·布洛姆坎普谈 Unity 容积捕获技术在新作《恶灵》中的应用  第3张
在《恶灵》中,Carly 一角由卡莉·波普 (Carly Pope) 饰演。本片的电影制作人团队运用 Unity 的 Project Inplay 技术(暂定名),为容积捕捉数据进行重新照明处理。图片由 IFC Midnight 提供

像您这样的电影制作人能够推动技术发展。如果下次再使用容积捕捉技术,您认为哪些方面可以改善?比如您先前提到,由于容积捕捉数据需要经过处理,大概率无法实时观察到画面表现。

尼尔·布洛姆坎普:这就要看电脑技术的发展了。或许在不远的将来,摩尔定律就要被打破了,但我不知道还需要研究多少年,才能弄清楚电路领域的量子密度,也不知道运算能力还能提高到什么程度。

如今芯片的性能已经很强了,但仍需要花大量时间处理数据,就算快 100 倍,甚至 1000 倍,离真正的实时也还差得远。但对我来说,影响不大。毕竟把数据导入 Unity 等工具之后,就能随心所欲地进行调整了。对我来说,这一步更为重要。

实时摄像机和虚拟摄像机的作用是摆脱计划拍摄的限制:不管是太阳下山、暴雨将至,还是傍晚五点群众演员下班,都不是问题。虚拟制作的作用则是提供一处足够安静且可控的后期制作设施,在那里,你可以把三维数据导入到 Unity 这样的工具中,获取虚拟摄像机,只要你想,就能花上几个星期慢慢调整出自己想要的效果。因此,从收集容捕数据到处理成 3D 模型,中间的时间差在我看来无关紧要,处理完成后导入到实时环境就行了。

The End