对不起,虚拟数字人拒绝做社畜

Xsens动作捕捉 2023-05-09 5271

编辑导语:元宇宙概念的走红,让虚拟人产业也受到广泛的关注,还在商业、文化等领域不断发展。那么从虚拟偶像歌姬林明美到柳夜熙,这些虚拟数字人到底是打工人还是搞笑人呢?

对不起,虚拟数字人拒绝做社畜  第1张

小冰打工10年了,小爱打工5年,虚拟数字人他们都有光明的未来?

显然不是所有虚拟数字人都像小冰、小爱那样热爱工作,即便元宇宙概念持续走热,作为人类未来在元宇宙世界的虚拟分身,爱屋及乌,虚拟人产业也受到广泛关注,并且在现实生活中呈现出商业、文化等领域的持续拓展。

应用场景从虚拟KOL、虚拟偶像,到虚拟直播间主播、基础服务虚拟人,变现路径从传统的演唱会、唱片、广告代言,到直播打赏、直播带货,商业变现模式逐渐多元化。

但是除了前面提到的小冰、小爱等少数几位数字虚拟人成为一名勤勤恳恳的打工人,其他即便是柳夜熙也是三天打鱼两天晒网, 那么虚拟数字人是打工人还是搞笑人?

一、虚拟数字人来了

最早的虚拟人出现于20世纪80年代,1982年,世界上第一个虚拟偶像歌姬林明美诞生。

而在两年后(1984)的英国,又诞生了世界首位参演电影的虚拟人——Max Headroom,不过此时虚拟人仍处在萌芽时期,其实现手段仍以手绘为主;

而进入21世纪后虚拟人进入了新的探索时期,CG、动作捕捉等计算机技术取代手绘成为虚拟人技术的新宠,最成功的案例便是2001年的《指环王》中通过CG动作捕捉而塑造出的咕噜一角。

而2015年之后,虚拟人则发展到了初级阶段,终于可以尝试出入各种场合了。

譬如2018年新华社与搜狗合作打造的虚拟主持人(以主持人邱浩为原型打造),再比如某房企拿下了最佳新人奖的虚拟员工等……

而在这一时期,AI深度学习算法成为了虚拟人制造的关键技术,那么当下的虚拟数字人究竟是怎么诞生的呢?

对不起,虚拟数字人拒绝做社畜  第2张

虚拟人的制作流程涵盖了诸多技术,制作方式仍在逐步进化中,存在某些步骤互相融合的趋势,但尚没有完全定型的整套解决流程。

虚拟人制作流程中最为核心、最具挑战的是建模、驱动、渲染三大流程。

先说建模,目前的建模方式主要可以分为三种:

第一种是手工建模,这是最初的建模手段,目前仍广泛应用,但人工制作周期较长。

第二种是图像采集模型,通过几张照片还原人脸 3D 结构,但其精度仍不足以建立高质量模型。

第三种是仪器采集模型,是目前发展的重点,其精度可达 0.1 毫米,但目前成本较高。

再说驱动,虚拟人驱动部分按照基本逻辑可拆分为面部动作和肢体动作部分。

面部动作部分最具挑战的是嘴部动作,其基本逻辑为:以文本为起点,制作相关语音与动画,并通过大量模型训练,最终达到任意文本可驱动的模型。

具体驱动方式有视频算法训练,即使用大量与文本绑定的语音嘴型视频进行机器训练;

接着将语音与动作相绑定,从而达成文本输入到特定动作的实现;

最后通过相关设备采集点,将真人的面部动作还原到模型当中。

而肢体动作目前主要的生成方式则是动作捕捉,具体实现方式是光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。

对不起,虚拟数字人拒绝做社畜  第3张

最后便是渲染,渲染指对三维物体或虚拟场景加入几何、视点、纹理、照明和阴影等信息从而达成从模型到图像的转变,渲染决定了最终作品的质量与风格。

渲染技术的升级是综合实力的体现,每一次技术提升对数字人皮肤纹理、3D 效果、质感和细节等方面提升巨大。

目前渲染技术分为两类,离线渲染技术(预渲染技术)和实时渲染技术,其本质区别是在目前发展状况各项局限下,对时效性和图形质量间的取舍。

离线渲染技术不关心完成速度,这类渲染技术主要应用于影视动画等方面,其对真实度、精细度有较高要求,可使用更多的计算资源。

实时渲染技术重点关注交互性与时效性,适用于用户交互频繁的场景,如游戏、虚拟客服、虚拟主播等,此类场景要求快速创建图像。

目前图形生产硬件和可用信息的预编译等提高了实时渲染的性能,但其质量仍然受限于渲染时长以及计算资源。

随着硬件与算法的提升,实时渲染技术已具备较强的综合表现实力,预计将逐步普及。

二、努力成为一位合格的打工人

目前上至腾讯、阿里等巨头科技公司,下至抖音中的电商直播间,似乎人人都想让虚拟数字人成为光荣的劳动者……

虚拟偶像是虚拟数字人的重要类别,也是主要的变现方式之一。

1982 年,以手绘技术作支撑的世界第一位虚拟歌姬林明美诞生,虚拟人首次被引入现实世界,其发布的音乐专辑取得骄人的成绩,证明了虚拟人利用高质量内容变现的商业模式的可行性。

随后职业偶像始终作为虚拟偶像发展主流,海外及中国均不断推出歌唱类或唱跳类虚拟偶像,包括以初音未来为代表的日本虚拟歌姬,和以洛天依为代表的中国虚拟偶像,走出了较为成功的商业变现之路。

2016年以后,虚拟角色兴起,虚拟主播、虚拟 KOL、虚拟品牌形象频频出世,在直播、电商、品牌营销等细分场景参演。

对不起,虚拟数字人拒绝做社畜  第4张

而虚拟主播则是虚拟数字人另一重要类别。

早在 2004 年,央视电影频道就推出了第一位虚拟主持人小龙,但由于当时国内虚拟人技术不成熟,小龙的智能水平低,只是昙花一现。

如今虚拟新闻主播和虚拟主持人已经走向高拟人化和高智能化,在其 AI 系统支持下,不仅能通过文本输入实现声音加画面的同步输出,大大提高内容产出效率和准确性;

而且形象超写实,可根据不同场景选择姿态、动作、服装等,甚至在实时渲染技术加持下虚拟主持人能参与进节目录制或直播中,完成实时互动:2019 年小小撒亮相央视春晚直播,与撒贝宁互动。

但是放大到整个行业从整个虚拟人的制作流程来看,目前的制作方式自动化程度低,尤其是 3D 虚拟人需要大量的人工参与,AI、算法的开发和建模数据积累还需要时间,尚难以实现高效率地生产高质量虚拟人。

因此从制作成本上看,一个标准化的功能型虚拟人项目(客服、导游等)基本需要投入十几万到几十万不等的成本,具体数额取决于建模精细度、渲染实时性、交互深度等技术细节。

而虚拟偶像、虚拟 KOL等制作成本则要更高,例如 “邓丽君”虚拟人、柳夜熙等,成本高达上百万,如要在舞台现场表演呈现更好的效果,则成本更高,可以说当前虚拟数字人要的工资又高又不能干活,还不是一个合格的打工人。

编辑:Light;公众号:Techsoho

原文链接:
https://mp.weixin.qq.com/s/KFOR5iW1-WqFvof25mXxBw

本文由@Techsoho 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

The End