Kizuna Ai (キズナアイ) 到底是不是 AI?

Xsens动作捕捉 2022-10-06 16365

先来严肃的技术分析:

任何有计算机科学常识的人都知道,AI 是肯定不可能的。如果这要真是 AI ,肯定能通过图灵测试,碾压现代 AI 研究好几个世代,做机器学习的基佬们都不用瞎折腾了,这儿有人可是直接搞出 strong AI 了……甚至单单就声音来说,都不可能是合成的——目前没有任何声音合成软件能在合理的人力辅助内接近这个程度(也就是说即使允许后期“调校”,这个程度的声音表演所需要的人力都是不可想象的,不可能做到日更……)。

所以就是人类设计角色性格、人类撰写台词、人类声优配音。

模型就不用多说了,著名的TDA老师监修的,官网都提供了免费下载,可以导入 MMD ,网络上同人视频已经不少了。至于原作者本身是不是使用 MMD 倒是不一定。

动作方面,推测大部分视频应该是动作捕捉技术为主,可能辅以一些后期人工修正,原因主要有两点:一、更新频率极高,长期保持准日更,每期视频都有十分钟左右甚至更长,如果完全手工拉动作工作量、成本都太高了;二、大部分视频体态自然、动作平和,但又时常出现穿模、关节翻折,很像是动作捕捉的结果(如果是手工设计的话,不会在这么中性的体位下拉出穿模、翻关节来)。但也有少部分视频(比如身体测量)可能是例外。至于所使用的技术,很多人都说是 Kinnect ,不过我印象中 Kinnect 对于手部的识别精度比较有限(很多应用需要配合 LeapMotion ),不知道是否配合了其他技术。

面部表情,可能是类似但比 FaceRig 更高级的表情捕捉(比较有力的证据见下),同时很可能也辅以事先准备好的一套表情库(丰富夸张的二次元颜艺应该是事先制作好,然后手动调用或者在特定表情下自动触发)。

这个 AnimeJapan 的现场互动活动录像可以比较有力地证明实时动作和表情捕捉的存在: A.I.Channel的番外篇--AnimeJapan现场_日常_生活_bilibili_哔哩哔哩 。现场应对非常快、流畅自然。这个录像还从侧面说明日常的那些视频很可能极少或者没有后期手工修正。

总的来说,幕后团队制作水平非常高:森倉円可爱的人物设定,TDA精美的建模,还有迷之声优的出色表演——这个声优很值得称赞,同样从上面的现场录像可以看出,动作捕捉很可能就是声优本人(这么说来其实已经不只是声音演员,而是一般意义的演员了,对角色塑造起到关键作用)。


当然,说了这么多,(笨蛋)“AI”其实就是角色设定的一部分,在欣赏视频时,就愉快地接受这个设定,享受21世纪的美梦,不要 ky 地去问别人这个问题啦!

能活在现在真好! What a good time to be alive!

附录:

The End