关于“鹿鸣”项目的一些感思:这或许是走向未来游戏的重要一步
从yoyo鹿鸣项目被发现是隶属米忽悠旗开始,争论的声音就从未停止,她的突然出现和模糊不清的定位,让玩家、游戏业内、ACG爱好者们琢磨不清。
为什么一个二次元角色在用短视频的方式在B站投稿?
为什么米哈游开始研究虚幻引擎而不是继续魔改Unity?
为什么她突然变成了一个桌面程序?
……
很多疑问在争论都在爆发,终于又在这次的直播中又达到了一次小高潮。我本人宅属性浓度较高,是游戏行业的打工人,工作内容是游戏设计(狗策划),所以对这场直播较为关注,对背后的米忽悠展示的技术十分感兴趣,但是水平较低,仅想和大家交流讨论。
猜测:鹿鸣直播的实现方式是什么?
这也许是所有游戏、虚拟主播等从业人员都十分关心的技术问题,当然米忽悠也不会轻易的公开技术方案,这么那么以我个人浅薄的知识量来猜测,将主要对动作和声音方案经行猜想。至于画面(模型渲染、场景等等)表现,那确实是二次元虚拟直播的天花板(只要它不是播片)级别,我也不过多赘述。
当然,这样一场直播的顺利进行是不同职业、工种的技术人员(导演、导播、编导、原画、建模、动捕等等)共同努力的结果,他们的努力和付出也不容小视。
动作:动作捕捉
官方给出的说明是【动作捕捉】,但是这里的动作捕捉有些含糊不清——是实时动作捕捉,还是提前录制动作捕捉?
方案A:实时动作捕捉,需要中之人(动作演员)在直播过程中穿着动捕服和面部捕捉摄像头,一边获取动作和面部的数据,一边输出到软件(UE)让模型动起来,同时软件渲染画面。这种方案已经比较成熟的应用与虚拟现实交互和虚拟主播直播中了。
方案B:录制动作捕捉,由动作演员提前经行大量的动作录制,并将这些动作通过骨骼融合、部分骨骼动画等技术方式经行处理(比如角色动画的连续,不同部位的动画组合),使角色拥有一个丰富的动作库。在直播过程中,只需要使用人为编排流程再辅以程序控制,整个直播的就可以顺利的播放下来。而且提前录制的动作数据可以加入人工(或者程序)优化,减少穿模等问题。
方案C:当然还有两种动捕的混合方案,即动作演员穿戴设备在现场,直播时做简单的动作指令和一些动作的补充,同时使用AI等技术手段经行动作限制,保证动作的流畅度和防止穿模、模型错乱等问题。
对于上述的三种方案,再结合直播时候的表现,我认为鹿鸣使用的是录制的动作捕捉方案+AI控制动作调用的形式,原因有以下
1、有大量重复动作的出现,如果是实时动捕应该不会有这种高频重复动作的情况,尤其还要由人扮演,这对演员的要求太高,毕竟人很容易犯错,机器则不会。
2、直播过程几乎没有穿模、模型错位等问题,而且动作十分流畅,这种丝滑我倾向认为是程序干预的后果。在跳舞等大幅度动作的考验下,完全可以使用库中事先优化好的动作来表现,再使用骨骼融合等技术做一些
3、直播流程时间短且紧凑,互动性较低,失误极少,提供的内容展示也在一个极度可控的范围内,几乎没有以往其他虚拟直播中随机事件发生的痕迹。
为了验证自己的想法,录播视频发布后,我在PR中对录播经行逐帧分析,并对重复出现的动作经行叠加比较,却发现事情好像并不是我想的那样,因为几乎看似重复的动作,基本没有能重合的部分。
这一度让我对之前的推测产生了怀疑,我开始否认自己的想法,因为这样的自由度是我所不能想象的,我的观点发生了变化。
难道鹿鸣拥有一个超级巨大的动作库?这样每次动作都可以从库中调用不重复的效果。
难道是全程使用动作演员?而且这个动作演员接受了严格的训练和排练,模仿出了一个AI效果?
越是这样怀疑,我越觉得是真的,知道我看到了知乎上
大佬提出Motion Matching技术,并立即对其概念简单了解。通过实时的比对当前动画和数据库中的动画片段,寻找动画数据库中于当前动画最匹配的帧或片段来合成新的动画,从而实现操作反馈及时性的同时保证动作的流畅性。合成后的动画会与原动画数据有一定的相似性,但因为是由来自于不同片段动画数据的拼接,且由每次玩家输入的细微差别作为变量(比如说移动遥感的速度变化),导致搜索结果的细微差异,从而达到所展现出来的合成动画的不重复性。
确实有一个庞大的动作库,但是使用Motion Matching可以让动作过渡和衔接更加丝滑,不同的变量引入让重复的动作,也能有一些细微的差别。但是因为这些差别实在细小,局部的细节不太容易被察觉,主体的动作幅度相似度太高,所整体给人的感觉还是动作的重复度过高。
当然大佬也提出了他们猜测的方案,也就是C方案,由动作演员经行操控,但动作数据会使用Motion Matching处理,最终输出的动作是由两方(演员与程序)共同决定的。
而我个人仍然偏向B方案。因为我觉得一些动作重复的频率实在是太高了,即便是动作演员的“个人”动作习惯,触发这些重复动作的频率也不应该那么高;而且这些重复动作的相似度也过高,每个动作像是在一个基本的动作框架内做出一些差异改变,而这种级别的改变由人去做也可能不可控。
声音:逆熵AI生成
声音合成这方面已经有很多大佬经行分析了,目前可行性和可信度比较靠谱的方案是:配音演员在后台输入语音,转换成AI声线。通俗的讲是一个高级的变声器,可以将所有人的声音都变成鹿鸣的声音,而且还能“调教”出具有合适语气的发音。之后再利用混合动捕相关的技术,将语音和口型经行匹配,将口型实时匹配到面部。
我个人也比较倾向这套方案。从V家开始,调音这种技术就不断的在积累和进步,最近几年又出现了像《ACE虚拟歌姬》这样的轻便化、智能化软件,将调音的门槛进一步降低,同时也有很厉害的AI调音功能,所以在“高级变声器”这个方向鹿鸣应该是可以做到有所建树的,即便不能像ACE那样成熟,但是针对鹿鸣经行定制应该也是问题不大。
其次是根据语音对口型的部分,这种类似功能在《赛博朋克2077》中也已经出现(赛博朋克2077的剧情动画,角色可以兼容10种语言的口型),鹿鸣应该能做到这种对口型的效果。
当然我也不排除还有其他方案,比如没有配音演员,而是由工作人员后台快速打字,AI将文字生成对应的声音;比如使用类似Siri、小爱同学等人工智能的形式,通过实时抓取弹幕分析,再由人工智能的方式播放由逆熵AI合成的声音……毕竟现在很多公众号、视频营销号都在用这些已经成熟的方案了。
总的来看,鹿鸣直播的技术是综合了当前技术能力的,还没有达到大众预想的程度,留下了很大的发展空间,而且这个空间还很大。我也不知道技术门槛到底在哪里,下一次直播能突破那些技术瓶颈,真正的技术会被何时公开(公开了会不会破坏粉丝对鹿鸣的印象),这些都是未知数,留给时间去观察吧。
鹿鸣和其他虚拟主播的区别是什么?
从上面的技术手段分析,鹿鸣目前是一个不依赖中之人的虚拟主播,这也是有人说:虚拟主播圈终于开始讨论“虚拟”而不是“主播”。
要将鹿鸣和虚拟主播们经行比较,鹿鸣的优势和缺点几乎都是显而易见的
优点:
1、高质量的画面、动作表现
2、没有中之人,可以降低成本,且直播流程可控,表演内容稳定
缺点:
1、高质量带来的高负荷、高成本,一些技术难点并没有在直播中表现,可能还是技术不到位
2、直播过程的交互性低,和观众之间有较强的距离感
3、直播中节目效果很难发生,只能人为设计,很难自发形成
很多观众不太接受这种形式的直播,问题有互动太少,节目效果少等等,甚至没能建立和虚拟主播的情感连接,别的主播哪里观众能有很强的互动,而鹿鸣总是和观众有一种距离感。就像当年爱酱刚出现的时候,大家不理解:为什么虚拟主播不是虚拟的AI,而要有一个中之人。当然这样的组合形式也逐渐被大部分人接受,虚拟主播也不断完善整个生态,并且细分各个赛道,商业模式和盈利方式也逐渐成型。观众可以喜欢虚拟主播的设定,也可以喜欢皮肤,也可以喜欢扮演角色的中之人……
这次直播仿佛一个时光机器,让我把视线拉回来到了虚拟偶像的时代,相较于现在的虚拟主播圈,我更倾向将鹿鸣分类到V家,就是初音、洛天依这类早期的虚拟偶像。这场直播仿佛是那个时代的一种延续,是虚拟偶像进化的另一条分支,但是对于这条分支的发展我还不能判断是否有效,因为当年虚拟偶像的崛起是靠无数同人作者、作曲家、动画师用爱堆叠起来的,至于鹿鸣未来是否仍然只能由开发让爱好者们为其产出作品,我还是要画上问号。
毕竟很难有大量的个人作者能够驾驭这么庞大的系统,且这些系统是否有一个很强的易用性都是不可知的。但是把一部分内容释放出来应该是可行的,从小处做起,慢慢堆量,比如音源技术这种。
猜测:鹿鸣项目的目的是什么?
从大伟哥在2020年的某次UE开发者分享会上分享的内容来看,目前他的目标实现已经来到了2.0。我个人认为,这个2.0还没有完全到来,因为这次直播更多是一次技术测试,还没有完全的实现“直播会达到和离线内容完全相同的品质”。
从鹿鸣投稿的视频梳理下来,很容易发现项目的不断进步,每一个视频都是一次项目内容进度展示。
投稿BV | 时间 | 摆明的目的 | 个人猜测的其他目的 |
---|---|---|---|
BV13p4y1Q7RH | 2020-05-15 | mocap管道的初步测试 | |
BV1az4y197KY | 2020-06-05 | 表情测试,镂空蕾丝材质测试 | |
BV1jZ4y1W7c9 | 2020-06-12 | 未公布 | 布料物理的测试 |
BV1Wa4y1Y727 | 2020-06-24 | 未公布 | 镜像骨骼对材质的实验 |
BV1xp4y1S74b | 2020-07-08 | 未公布 | 颜色光照效果测试/透明材质(棒棒糖)的测试 |
BV1F54y1q7Qz | 2020-07-17 | 未公布 | 裙子布料物理的测试 |
BV1pz4y1Q7KB | 2020-07-31 | 未公布 | 绒毛(发饰耳朵和手部彩球)渲染和物理测试 |
BV1q5411a7kY | 2020-08-04 | 公布《人工桌面》 | |
BV1Li4y1g7r2 | 2020-08-07 | 未公布 | 皮肤肌肉相关的动作测试 |
BV1QA411Y75C | 2020-08-14 | 未公布 | 实时换装功能与效果测试 |
BV1ez4y1f7V7 | 2020-08-21 | 未公布 | 细微动捕、面捕的技术测试 |
BV15A41177WW | 2020-09-30 | 未公布 | 丝绸材质效果、场景渲染效果、镜头景深与背景虚化、日光效果测试等 |
BV1bK4y177yD | 2020-10-30 | 未公布 | 场景物理交互,场景渲染(灯光与物品材质)测试,布料与场景物理测试 |
BV1W54y167AL | 2020-11-26 | 未公布 | 水体交互测试、水体渲染测试、水体光线反射测试、舞台灯光测试 |
BV1F5411G7nx | 2020-12-01 | 公布《人工桌面》更新,安卓版 | |
BV1N5411V7WR | 2020-12-18 | 陆离的毛衣材质测试 | |
BV1Py4y1i7L2 | 2020-12-24 | 未公布 | 物品表面反射、光追测试,物体交互的物理测试、气体流动测试 |
BV1GV411i7wR | 2021-02-07 | 声音:逆熵AI生成 | |
BV1R64y1m7KA | 2021-04-23 | 未公布 | 气体流动测试、光线(虹光)反射测试 |
BV1dm4y1X7ZS | 2021-12-22 | 四足动物建模与毛发渲染,四足动物动捕 | 人体皮肤模拟(半透明皮肤、皮肤纹理、血管、肌肉组织) |
BV1fS4y1o7EL | 2022-01-27 | 雪地场景测试,雪花物理等 | 毛呢材质测试、雪地光反射测试 |
BV1jf4y1o78M | 2022-07-15 | 鹿鸣直播 |
这次的直播采用了很保守的方案,一些视频中出现的技术细节也都没有在直播中展示,因为这些效果可能就是当前技术无法实现在直播时实现,但是未来可期。
近些年不同方向对虚拟技术的探索不断深入,一些技术已经因为硬件或者算力等限制的发展到了瓶颈期,那么技术整合成了当下节点可以尝试突破的方向。鹿鸣所做的几乎就是将这些成熟的技术经行的整合,达到一个理想的最优解。
那么,最理想化的什么样子的呢?
如果是直播的话,个人认为实现方式是由AI控制的直播内容:由经过深度学习、训练的人工智能来处理数据,接受条件,执行动作,实现真正的虚拟人直播。比如计算机采集弹幕数据、设置直播流程等做为条件,通过人工智能处理数据,并管理执行对应的工作模块,做动作、播语音等等。AI会控制每个动作的变量,语音的变量,根据设定的人设经行表演与展示。
也许再进一步就十分的科幻起来了,机械意识、人造意识、仿生人权等问题也随之而来……这些也离我们还有点距离,但是谁也说不好,它是否下一秒就来到了。
那么稍微收敛一些看,这些技术能为当前的发展带来了什么——
我想到了什么
我做为一个热爱探寻新事物的人,一个臭打游戏的,一个普普通通的游戏从业人员,米忽悠搞出来的技术确实让我振奋了许久(最起码一个周末吧),对我来说这也许是游戏内容创作的一次方向探索发现,未来的游戏内容制作会不会更加的人工智能化。
我要强调一下,我指的是内容创作创新,而不是技术创新。技术创新在UE5、AlphaGo等方面我们也看到了许多许多,它们也很强,代表了人类技术力量的进步,但会受到物理条件(硬件、算力)等影响,而内容创新的上限在人。一个玩法的内容的设计,Roguelike、开放世界也好,Rpg对战、卡牌对战也好,做出来效果的上限在于人的设计。
鹿鸣当前展现的技术如果在某一天应用到游戏上,那么这个游戏世界的生动性将是更上一层楼的。哪怕应用在一个NPC上,比如原神里的派蒙、尼尔里跟着A2的9S、战神Ω里的阿特柔斯……这些角色和玩家的互动不再是一板一眼的剧本桥段,也不是玩家点一下做一下反应的机械式回应,玩家在游戏里有了一个可以全程不重复互动的助手/伴侣。甚至,他可以观察你的伤害,对你的高级操作经行称赞(或者吐槽),甚至自己掌握展示一定的战术与你配合……
一个NPC如此,那么一整个世界的NPC都有这些效果——SAO可能真的就可以开服了。这个世界会自发的产生的事件,大家和NPC们的交互会更加丰富多样,当然敌人可能也会更加的奸诈狡猾……大家可以在游戏里中的自由度也得到了提升,内容消耗的速度也会得到减缓,玩家有的玩,厂商有内容产出,一些成本也会降低。
一个世界如此,那么N多个世界链接起来会怎么样?
……
……
也许有人会提——这不就是元宇宙吗——是啊,你称呼它元宇宙也好,绿洲也好,灵境也好,现在人对它提出了无尽的幻想,但是真的有人是走在正确的道路上去实现它吗?如果有,请真真切切的告诉大家你们在技术上的进步大概有多少?可展示的成果有多少?能让大家感觉到“它”的到来吗?
当然,我估计米忽悠也会说,他们不是在搞元宇宙。他们是在用技术一步步的探求他们的目标和终点,他们会用自己的方式对外展示,也许他们会应用在下一款游戏里,也许他们会转向VR/AR/MR的赛道里,这些我们都不知道,他们是自由的,米哈游是自由的。
后序
也许是我个人自作多情了一些,但是我又能看到业内有人在实打实的进步,在用最质朴的力量前进,这给予我更多的为游戏行业奋斗努力的信心。
就如同初看见游戏科学的《黑神话:悟空》和24 Entertainment工作室的《永劫无间》一样,这是国内游戏人在向世界顶尖游戏制作水平的努力,如今又有新的技术、新的力量出现,这样的发展是正向的,有效的,振奋人心的。
希望他们能成功。
也希望我也能成为助力游戏发展的其中一员。
请大家一起加油。
给自己的预防针
以上观点仅建立在米忽悠真的干人事,搞技术,而不是播片诈骗,且他们方向明确,能够服务游戏或其他行业。
赚钱嘛,不寒碜,但是要是弄虚作假,那就是天大的笑话。