人均一个XR数字人,元宇宙如何实现“捏人自由”?
当我们步入一个新世界,最先关注的,就是自己的“人设”。
在2000年,腾讯QQ已经是全民APP,拥有2.91亿用户,100万日活,然而流量却无法变现。幸好当时一个产品经理想出了打扮网络形象的“QQ秀”,一经推出便大受欢迎,腾讯QQ也成功开启了商业化的道路。
QQ秀的成功有其必然性:绝大多数产业都是围绕人这个中心展开的,所以在一个全新的社交空间,当先崛起的肯定是宣示自我存在的产业。同样的道理,在元宇宙概念深入人心的今天,第一个真正崛起的产业也是数字人,我们在短视频可以刷到虚拟明星,各个品牌也开始青睐数字人代理,甚至连马斯克也来凑热闹:虽然没有搞个数字形象,但是他声称将自己的意识上传到了云端,意图实现“数字永生”。
有媒体形容,2022年是数字人的“生育高峰期”。IDC发布的行业报告也显示,在2022年后,数字人将与深度学习、自动驾驶等一起,成为AI最热门的赛道之一,预计到2026年中国数字人市场规模将达到102.4亿元。而在其中,XR数字人被视为用户与虚拟世界链接交互的第一入口,为每个人在元宇宙中创造专属身份,将成为必然趋势。
中央财经大学数字经济融合创新发展中心主任陈端认为,“如果说‘元宇宙’是一种引领性的概念、愿景,那么‘数字人’就是通向未来数字新大陆的重要桥梁。”
但是另一方面,数字人变得人人可有并非易事,因为它不是一个代表身份的“头像”,而是一个生活在元宇宙的“宇宙人”,它是用户的分身,是连接人类与虚拟世界的桥梁,需要“活”起来。
数字人技术难度的一个侧面证明,是国内 AR 头部企业 Rokid 在近日发布了自研 XR 数字人技术,并迅速在业界引起了广泛关注。该技术的最大亮点是支持用户自己打造专属XR数字人,同时将对外部开发者开放。
为什么XR数字人技术会引发如此广泛的关注?这要从为什么我们需要XR数字人,以及XR数字人到底有多难“造”说起。
一、元宇宙“造人”有多难?
数字人发展的核心动力,从本质来说是人对互动体验的无限追求。
为什么随着技术发展,我们有了图文、语音、视频等远程交流方式,但在重要场合依然倾向于人与人之间面对面交流?不仅是因为直接交流舒服且自然,更重要的是面对面能够通过语气、态度,眼神、微表情、身体动作传递更多信息,更好更完善地表达自己的意思。
而这,也正是数字人划时代的地方,它既可以是虚拟世界的虚拟形象,也可以是人在元宇宙中的另一个分身,但无论是哪一种,都会模糊虚拟与现实的边界,为我们带来更为真实的交流互动体验。
因此,Rokid自研XR数字人技术的第一个核心是为用户提供自由“捏人”功能,其包含着完整的数字人设计系统。通过采用五头身比例,将写实风格与卡通风格进行平衡,让数字人的面部特征与表情动作更加突出和生动,同时也更具亲和力。再加上,五官和服装的自由搭配组合, 可以让用户自由“捏”出更具个性的数字人形象。有消息称, Rokid 还将推出更多的五官分类组合和动作,从而迎合全世界不同国家、不同肤色、不同文化的用户的审美。
更值得关注的是,Rokid 自研 XR 数字人技术还将对外开放,既支持第三方 XR 开发者通过 SDK 集成,接入数字人引擎服务,开发属于自己的数字人形象和体系;也可以通过Rokid 即将推出的数字人管理平台,进行数字人形象、服装、道具等设计,以数字人引擎共同丰富元宇宙生态。
但是数字人不只是“捏脸”,其还有更多需要极高技术储备才能实现的功能。自然的声音、流畅的表情与动作,以及良好的互动体验背后,是人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等多方面先进人工智能技术的复合应用。
目前,无论是苹果的ARkit,还是主打无标记点面部表情捕捉系统的Faceware,或者是通过摄像头来进行面部捕捉的DynamicXYZ,原理都是通过外部设备采集面部表情动作,然后在映射到高精度的3D角色上。
这种以面部捕捉为核心的数字人表情实现方式需要诸多设备。一是成本极高,前段时间在抖音走红的虚拟数字人,几分钟的视频需往往需要花费几十万;二是动作捕捉需要提前预设,在解算效果不好的情况下进行后期的手动精修处理,因此无法适应线上会议、元宇宙空间互动等需要实时生成动画的场景。这些技术难点也让这一类数字人大多用在B端场景,而无法实现C端的大规模应用。
Rokid自研XR数字人技术,则通过更低成本,环节更少的音频驱动方案,实现了数字人的表情帧和声音帧同频,嘴部动画实时生成,为XR数字人在C端应用迈出重要一步。
Rokid是如何做到的?
二、数字人产业的新支点
当前,业界实现数字人实时表情生成的主要方案,是面部捕捉与深度学习的结合。
这套方案的核心,是基于深度学习构建面部实时驱动系统,通过泛化的神经网络模块,根据真人表演录制的视频直接解算出3D角色的面部绑定动画参数值,从而实时驱动角色动画。这一方式较传统的面部捕捉方案更进一步,对设备的和算力的要求同样也会飙升,其成本可以达到百万元级别,而且还会随着建模精度等因素进一步提高,所以难以广泛普及应用。
而Rokid自研XR数字人技术,是根据音素——也就是根据语音的自然属性划分出来的最小语音单位,一个发音动作构成一个音素——来通过ASR(数字语音识别)算法倒推出发音时的口型动作,从而形成实时的表情动作,这样就摆脱了表情动作捕捉对摄像头等设备的依赖,实现口型与表情动作与真人同步匹配。
相较面部识别与深度学习,通过ASR技术生成嘴部表情动作的技术原理并不复杂,为什么却没有普及?原因很简单,这种方案流程较长,需要将语音用ASR技术将语音识别成文字,然后再通过 TTS(从文本到语音)输出音素+bs系数生成表情,这样需要经过两层转换,意义容易失真,同时在低算力的前提下,长流程会形成微妙却致命的“迟滞”,让语音和表情无法绝对同步,也就无法实现数字人交流带来的流畅与自然。
作为以智能音箱技术起家,同时在AR设备领域具有头部地位的厂商,Rokid在语音识别、元宇宙和数字人技术领域都有深厚积累,省略了将语音识别成文字,再由文字输出音素的环节,以更短的识别路径、更低的延迟实现了数字人声音帧和表情帧的绝对同步,而且进一步降低了性能要求,提升了识别的准确度。
目前,在移动端,Rokid 自研 XR 数字人解决方案单帧处理时间实现了低于 3ms/frame,且 CPU 占用率能保证的在 10% 以下。
这一方案不仅降低了XR数字人的生成门槛,也为XR数字人产业带来了一次质变:它让数字人产业可以拓展到手机和AR设备上,为AR设备产业“注入灵魂”。
正如前文所述,XR数字人是连接元宇宙和用户的桥梁,只有当“桥梁”成本足够低,元宇宙相关应用和技术才能被用户广泛接受,并且成为推动AR等设备普及的“杀手级应用”和下一代互联网的支点。以Rokid发布的自研XR数字人技术为代表,我们正逐步接近一个技术“奇点”——数字人在C端低成本普及的大门正被缓缓打开,元宇宙的无穷魅力正在被更多人看到与参与。
三、让每个人都成为元宇宙的缔造者
回到这次技术发布,为什么Rokid自研XR数字人技术,着重强调了低成本与开放性?
因为元宇宙本质不是某个应用或者某个产品,甚至某个产业,而是一个完整的,与现实世界平行的生态,需要无数企业和个人共同努力建设。在这之中,数字人作为人们在元宇宙中穿梭的通行证和桥梁,只有成本足够低且易于获得,才能激发设计者和用户兴趣建设一个新世界的热情。
现实世界中,宇宙因为物质才存在,而在虚拟世界中,宇宙因为“人”才存在。因此,Rokid 开放 XR 数字人技术的目标,即是从整个产业高度着眼,尽量降低每个人探索和接触元宇宙的成本,并且让所有人在创造自己数字“分身”的过程中获得对虚拟世界的初步体验与好奇,从而推动整个虚拟现实技术的普及和发展。
可以想见,相比于当前的互联网,元宇宙将会更为立体;相比于现实的世界,元宇宙将会更为个性化。前往这个更为精彩的宇宙,用户只需一个“通行证”:自己亲手打造的数字人形象。当用户创造出这个形象时,他已不仅是这个元宇宙的游客和探索者,而且是缔造元宇宙的一员。
作者:钱皓
编辑:安吉拉