AI又来炫技客,这个工具让数字人有了72万种表情
不知道从什么时候开始,笔者开始在意影视和游戏这两大娱乐行业里频繁出现的“面瘫现象”。
可能是一个个“演员”顶着“XXX演技绝了”的热搜,面无表情地出现在各大影视剧里的时候;当然也可能是游戏里,几乎没有表情变化的俊男靓女,试图让玩家隔着屏幕,对游戏或惊险或喜悦的情节产生代入感的时候。
早在2007年的一项研究中,专家通过眼部追踪技术就发现,无论是男人还是女人,在观看一个陌生对象时,最关注的就是对方的面部,从这一方面来看,所有人都是“外貌协会”。当然男人要稍微特别一点,即使对方是男性,除了面部,男性视线的另外一个热区是“下半身”。
这项研究除了让我们了解了关于男人没有用的冷知识,同样也说明了面部信息对于一个人的形象、情绪等信息传达的重要性。
影视行业暂且不提,包括动捕等电影技术越来越多地在游戏上的运用,都在说明很多游戏正在朝着一个“更加自然真实”的目标前进。但人物表情的呆板、不自然却成为了很多游戏,在带给玩家沉浸感时的绊脚石。
近日,来自加拿大的视效技术公司Ziva Dynamics正式公布了次时代的实时面部绑定工具ZRT Face Trainer。虽然目前该工具依然处于邀请测试阶段,不过在官方放出ZRT Face Trainer搭配虚幻4引擎制作的4K60帧演示视频后,该工具还是在Reddit等社交网络引起了热烈的讨论。
最直接的原因就是演示视频中的虚拟人物表情太真实了,甚至引发了不少网友的“恐怖谷效应”。
然而对于游戏行业而言更重要的是,与当前耗时耗力的面部捕捉不同,Ziva Dynamics号称这个基于云计算和AI的工具,不仅可以实时在引擎中,“以实时帧率”反映出面捕演员的表情,还可以让经过简单处理的角色网格组件(Mesh),在没有真人角色映射的情况下,表现出超过7.2万种脸部姿态。
国内外同步发力的面部捕捉
作为一家成立于2015年的加拿大VFX公司,Ziva Dynamics已经参与了《权力的游戏》《毒液》《环太平洋》《漫威英雄之域》等好莱坞大片和游戏产品的制作。而此次ZRT Face Trainer除了它在演示中优异的表现,另一个让不少人为之激动的是,Ziva Dynamics通过该工具实现的,对于传统面部捕捉流程的改良。
众所周知,无论是动作捕捉还是面部捕捉,这一类原先在电影行业使用的技术,最直观的两个特点就是贵和难。贵很好理解,场地租金、系统、人工等成本不用多说,而难可能是很多人不会意识到的问题,毕竟不是所有人都能意识到动捕数据的后期处理是多么复杂的一套流程,面部表情的制作周期往往可以达到数月之久。
而ZRT Face Trainer,根据Ziva Dynamics的说法,是建立在一个大小为15TB的4D扫描数据库上,并且依靠独有的AI算法,目前通过申请的专业人士,只需要将经过处理,符合系统标准的角色网格上传至Ziva Dynamics的全自动云生产管道上,“在 1 小时内,用户的角色网格就会注入游戏行业的最佳技术。”
而在官方的文档中,利用Maya或Wrap3的前期处理过程,也只有网格映射、清理和提高分辨率三步,官方预计最长耗时仅需2小时。而最终获得的结果理论上不仅可以兼容虚幻引擎,理论上还可以在其他引擎上使用。
事实上,除了Ziva Dynamics,GameLook也发现了另一家国内公司在这一面部捕捉这一方面颇有建树,那就是同样成立于2015年的“FACEGOOD”。
其实早在今年年中,FACEGOOD就上线了一款集成面部建模、肌肉绑定,面部捕捉的软件“AVATARY”,在官网中,FACEGOOD表示,凭借着公司自2016年以来,与网易、虎牙、原力动画等大公司的合作,已经积累了超过10万的人脸表情数据,而这些也支撑起了AVATARY背后的仿真技术。
当然,AVATARY和ZRT Face Trainer在核心技术上可能有所不同,但同样地可以大大提高面部表情动画的制作效率,理论上可以将原先数月的工期压缩至几个小时。
自然和真实是玩家迫切的需求
回到近几年的游戏市场,在人物表情方面,让笔者记忆最深刻的有两款游戏,分别是《最后生还者2》和《仙剑奇侠传7》。
虽然《最后生还者2》在叙事方面在笔者看来是不合格的,但在技术上,游戏的表现可以说是行业顶级的水平。索尼也曾放出过游戏在动作和面部捕捉方面的一部分幕后内容,面捕女演员Ashley Johnson的表情在主角艾丽模型上的映射,还原度极高。
索尼官方在采访中也表示,当时《最后生还者2》所用的技术是“索尼内部最为先进的”。
而另外一个例子就是《仙剑奇侠传7》,作为仙剑老玩家,笔者当然承认游戏的画面在光追的加持下可圈可点,但人物表情不够生动却也是Steam很多网友评论过的事实。
虽然我们能够看到的主流游戏,基本都找到了它们对待面瘫的补救方法,利用背景音乐、配音、台词等弥补画面上所缺失的深层次信息,利用这些方法,很多产品也的确在体验上做到了合格的水平。
但合格显然是不够的,在目前的游戏行业中,无论是以索尼为代表的电影化叙事的3A游戏,还是手游上以《原神》为代表的二次元和开放世界游戏,它们最吸引玩家的故事以及与角色、世界的交互都决定了,玩家对于游戏内人物在细节上有更高的要求这一点是不会发生变化的。
甚至都不用提“元宇宙”,在目前这个阶段,表现得“真实自然”的游戏内人物已经成为了衡量游戏品质的标准之一了。
当然Gamelook也清楚,人物的真实自然不仅仅只是和表情有关,正如笔者开头所举的例子,人们虽然观察另一个人物时,最集中的区域是脸部,但是在游戏的剧情、战斗、对抗中,影响游戏内人物真实性的不仅仅只是表情,在中远景镜头中,更多的反而是人物的动作、反应等。
而和面部表情一样,这些内容的制作,同样是需要大量时间和资金、技术成本投入的。而这也是为什么,笔者认为,相较于人类,各种AI在游戏中的角色才更像“女娲”,赋予大多数游戏内人物以生命。
AI上帝
2019年的GDC上,育碧就曾分享自己在AI和角色动画上的探索,通过强化学习,AI不仅可以调整各种语言、情绪下人物的口型,育碧还利用AI大量学习动捕数据后期处理过程中“被清理”过的数据,训练AI处理这些数据的能力,自动修正原始动捕数据中的部分“错位”,减轻动画制作者的工作负担。
早在当时,时任育碧蒙特利尔工作室研究部门执行官的Jacquier就曾预测2020年AI或许就能够做出2A级别的3D角色,2021年AI做出的3A级别的3D角色或许就能在游戏中做出和人类一致无二的动作了。
如果不算受疫情影响严重的2020年,2021的确已经出现了不少能够创建高质量角色和美术的AI项目了。而Jacquier对于AI做出和人类一致无二的动作这一预测,我们或许可以看向EA。
EA其实早在去年年底就曾申请过有关游戏内AI学习人类行为改变行为模式的专利,在今年8月举办的Siggraph计算机图形会议上,EA也展示了一个名为“合成武术动作的神经动画分层”的视频,视频中的人物在AI的加持下,以一种拟真的方式运动、跳跃和出拳。
然而EA的重头戏还在今年9月底上线的年货游戏《FIFA22》中,虽然今年的《FIFA22》使用的是和去年一模一样的引擎,但在游戏的次时代版本中,EA却为其加入了名为“HyperMotion”的技术。
EA通过让AI同时捕捉球场上22名球员的动作,学习了超过870万帧高级比赛后,在最需要真实感的传统体育游戏中,使用了这一AI次时代技术,并且根据玩家的反馈,“HyperMotion”的确让游戏中球员的动作更加流畅了。
由于玩家具有相当强的不确定性,即使一个游戏项目有着《最后生还者2》这样的顶级制作水平和前期投入,仅凭程序和美术有限的人力投入,永远都不可能保证主角以及部分重要角色在整个游戏流程中保持自然和真实。
而这个时候,经过训练,具有学习和感知能力的AI就成为了在系统预设之外,支配角色的动作、表情,基于角色生命力和活力的最佳选择了。
在游戏行业全平台趋势日益明显的现如今,不论是手游还是已经占据了优势地位的端游,在未来必然都会迎来玩家对游戏内人物的高标准严要求。更何况随着VR技术的发展和推广,游戏必然也将达到类似于《头号玩家》的形态。
当玩家可以和游戏内的NPC真正面对面交流、互动的时候,届时游戏内角色的一举一动,任何的不自然,就等于时时刻刻在提醒玩家这一切都是虚假的,更严重的是除了违和,类似于Ziva Dynamics演示里展示的高写实的形象,恐怕还会激发很多人性格中,对于陌生事物敌意和提防的本能。
可以说,在虚拟和现实的界限被打破的未来,由人类创造出的AI,或许比人类,更加适合成为能够控制虚拟世界中万物,包括部分虚拟人类的造物主。