如何快速、低成本克隆高质量数字人?
导读 本次分享题目为快速、低成本克隆高质量数字人。制作高质量的数字人往往需要较高的成本和较长的时间。数字人的制作时间和成本,与数字人质量,往往存在矛盾。今天和大家分享如何快速、低成本克隆高质量数字人。
文章主要包括下面 4 部分:
1. 克隆数字人概念和定义
2. 黑镜科技 MetaMaker 介绍
3. 如何快速、低成本克隆高质量数字人
4. 小结
分享嘉宾|杨建顺 黑镜科技 技术VP
编辑整理|叶然 追一
出品社区|DataFun
01
克隆数字人概念和定义
1. 数字人的定义
我们先来看看数字人的定义。数字人是将真实人物或虚构人物,以计算机代码的形式通过人工智能算法,AI 驱动,知识系统进行驱动,最终能够完成一系列的人类行为的数字人人物。根据数据来源,可以把数字人分为虚拟数字人和克隆数字人。
2. 虚拟数字人 VS 克隆数字人
虚拟数字人通常指的是以计算机代码形式存在的一个虚构的人物,可能现实世界中并不存在这个人,通过计算机图形学或者人工智能算法,让人们感觉它像是一个人。因为我们相信并且喜爱他,虚拟数字人就会具备天然的艺术属性和艺术功效,体现的是其创作者的主观创作意志。
今天我们重点讨论克隆数字人。克隆数字人是对一个真实、自然人的各种数据的复制,比如现在的扫描数字人,会对真人的人脸外观和声音进行克隆。克隆数字人可以理解为是真人的代码分支。大家如果看过《源代码》这部电影,就容易理解,克隆数字人是在不同的平行世界,甚至未来的元宇宙中,创建我们自己的分身。
完全意义上的克隆数字人,除了外观、语言的克隆,理论上我们还要对他的思想人格,甚至周围的环境,以及人与人之间的交互等进行 100% 复制。完全意义上的克隆数字人,几乎是不可能的,因为超复杂的系统可以被近似模拟,但无法被精确复制。我们今天讨论的是狭义的克隆数字人,也就是把真实人的外观、声音和行为进行克隆。
3. 数字人产业图谱
我们今天讨论的主题是虚拟 IP,虚拟偶像的范畴。目前的做法,都是通过比较高的制作工艺,较大的成本创造出一个虚拟的偶像。医学数字人需要对现实中的人进行 1:1 的克隆,并不需要非常好看,主要需要真实,更多应用到克隆数字人技术。除此之外,绝大多数的数字人包括服务数字人、平民数字人,或多或少都会用到克隆数字人和虚拟数字人多项技术的融合。目前做的较多的,更偏向演艺数字人、偶像数字人,也越来越多往服务数字人和平民数字人方向发展。黑镜科技一直相信未来世界每个人都会有一个数字化身,我们要做的是平民级的数字人。
我们对元宇宙的愿景,是希望未来人人都有数字人,处处都有数字人,所以我们认为通用的数字人是未来宇宙的核心基础技术。只有依托通用的数字人技术,才能让每个人都能创作出自己的数字人,作为 IP 运营自己,基于数字人再创造他自己的行为。目前,全球范围内,只有少数美国公司在研究通用数字人解决方案,绝大多数国内公司都还只停留在用传统影视技术制作“定制数字人”。而黑镜科技的核心团队,则从十年前就开始布局通用数字人的核心技术研发。
目前市面上并没有关于通用数字人的业务标准,我们尝试给出我们对通用数字人的理解。我们理解通用数字人需要做到零门槛、低成本、高效率、个性化,因为只有这样才能让全民都能参与和拥有,能够符合人性的需求,做到个性化表达。同时数字人要用起来,我们希望能够做到场景通用、资产通用、驱动通用、平台通用。这是我们理解的通用数字人业务标准。
--
02
黑镜科技 MetaMaker 介绍
接下来我将重点介绍黑镜科技推出的 MetaMaker 的通用数字人解决方案。
黑镜科技拥有全栈式虚拟化技术,提供完整的企业虚拟化服务。致力于将前沿数字技术平民化,成为让每个行业和组织都能参与共建元宇宙基础设施,实现生产力普惠,引领虚拟化时代。
1. MetaMaker Studio 云原生 SaaS 软件平台
我们推出的 MetaMaker 是一款云原生的 SaaS 软件。我们先来看看软件的具体使用,使用方法比较简单。
第一步先上传一张照片,它会帮你创建出虚拟形象。然后可以进行容貌和服装调整,这里集成了大量的资源库。可以对形象配置使用场景,产品页面类似早年 Flash 的编辑器。MetaMaker 的特色是内置了海量的数字人,以及预置了场景、动作、表情、物品、素材、音频。里面的配置项都是 AI 化、参数化的,有自动字幕,TTS 配音,动作添加,背景素材,能够快速制作出一个视频。
这个软件的核心是把数字人以及他的动作、表情实现 AI 化和参数化,让有限的资源产生无限的效果。比如要做一个 TTS 或者语音转口型的动画,在右边的属性面板可以进行参数化调整,甚至可以调整每个动作、每个骨骼的驱动。在大部分情况下,使用起来都是 AI 化、自动化的,比如要拿一个水杯,有一个 ik,帮助用户做简洁的处理。
我们的客户已经用这个工具做了大量的案例。这是客户使用 MetaMaker 做出来的案例合集。不论是在客服场景,还是播报类、教育类,甚至是一些情景化短剧,都用上了 MetaMaker。这个产品今年的目标是服务一万家企业,让企业能用上普惠型、通用的数字人技术,解决具体的视频生产问题。
MetaMaker 可以一键生成数字人,涵盖捏脸系统、海量服饰、语音克隆、行为驱动,能够零门槛打造高质量、声情并茂的数字人 IP,做到一人一面、智能驱动。我们一直致力于做通用的数字人技术,所以它使用起来低门槛、低成本、高效率、个性化,并具有通用性。相比影视数字人、动捕数字人、视频数字人,它最大的特点就是真人 AI 重建,千人千面,使用几乎无成本,毫秒级生成数字人,能够语音克隆,应用在各个领域。
2. 黑镜数字人 VS 其他数字人
这个数字人的质量效果,可能相比 MetaHuman 还不是那么像,这也是目前市场的一个常见问题。想要做到快速、低成本的生产数字人,其实很难达到高质量。全球市场上有一些公司在做通用数字人,包括美国 EpicGames,以及英伟达即将推出的 Avata 平台。我们在研究 MetaHuman 的时候,发现它确实能做到一些通用数字人技术,十几分钟就能捏出虚拟数字人,免费开源,运行的效率和效果都非常好,也能够去做个性化创作,导入到各平台去驱动数字人。
但在实际使用时,我们还是会发现其中的问题,首先 MetaHuman 不是为了“克隆数字人”,而是帮助用户创作“虚拟数字人”,更像是捏出一个虚拟数字人。当我们试图通过工具去还原真人时,发现很难创造出“克隆”人。当然他也推出了 MeshToMetaHuman 的插件,但仍需要巨大的成本去扫描数字人。
MetaHuman 的多样性,主要取决于内置资产数据库的丰富程度,现在内置大概 59 个人脸,十几款毛发,以及少量服装,资源比较有限,同质化比较严重。那么在做自定义资产的时候,还是需要巨大的创作成本和专业的建模师、动画师参与。
虽然 MetaHuman 捏出一个人比较快,但后续的集成开发困难,仍需要专业的 UE 引擎工程师和技术美术,并没有很好地解决引擎端的资产适配、语音驱动、行为驱动等问题。更根本的原因是,MetaHuman 受 Epic 公司定位的影响,解决的是引擎平台的问题,没有解决产品、服务、解决方案这一层的问题,这一层的问题其实才是真正离用户最近的,才能让普通人感觉到数字人的低使用门槛和低成本。国内有较多公司基于 MetaHuman 开发,入门比较容易,但要做出突破性成果就会比较困难。
我们将 MetaMaker 原有的通用解决方案的技术,与 MetaHuman 的开放思想结合,想做更多尝试。我们和 MetaHuman 都在做通用的数字人,都相信未来人人都有数字人,处处都有数字人。基于 MetaHuman 我们也开发了一套能够快速、低成本克隆高质量数字人的流程。接下来我将重点分享这个流程。
--
03
快速、低成本克隆高质量数字人
1. 传统扫描流程 VS 黑镜改进的扫描流程
传统的扫描流程通常要光场扫描,然后导入 Z-Brush 等软件修改,还需要有大量的绑定和融合变形,同时需要专业的场地,专业的建模师、绑定师、技美。整个时间周期比较长,两周到两个月不等,整体成本在十几万元以上,甚至到百万元级别。
自从有了 MeshToMetaHuman 插件之后,极大的简化了 Z-brush 和绑定的流程,但其他的流程没有太多改进,比如贴图仍没有提供解决方案,拍摄依然需要专业的场地和设备,也需要专业的技美。整个流程缩短到两天或到两周的时间不等,成本在数万元量级。淘宝有一些提供基于 MetaHuman 进行虚拟数字人捏脸的服务,成本可能能够控制在几百元,但如果要克隆一个人,目前成本和时间周期还是较长。
黑镜基于 MetaHuman 这一套流程做了优化。MeshToMetaHuman 插件是五月公布的,我们基于自己的理解做了一套改进流程。这套流程不需要复杂的光场,只需要简单的场地、普通的手机进行拍摄。也不需要专业的技美,只需要一个普通的会 PS 软件的技美。整个时间能够控制在半天到一天,成本降低到数百元量级,最多不会超过几千元。
接下来我以自己在公司拍摄为例进行介绍,总共用了不到半天的时间。如果熟悉这套流程,一天可以做 3~4 个数字人,大概 2~3 个小时就能够创造一个克隆数字人。
下面是我自己用手机拍摄的搭建效果。
2. 所需的硬件与软件
这套流程所需要的硬件和软件如下:
硬件方面,我在公司的一个墙角,用一块白布挡光,然后坐在椅子上用小米的手机进行自拍。只需要自拍就可以,不需要其他人帮助。
用到的软件包括:MetaShape 1.8,UE 5 + MeshToMetaHuman+MetaHuman Creat-or,PhotoShop 2022。使用软件的过程中,对软件进行了一些开发。
3. 快速、低成本克隆高质量数字人的步骤
第一步:用手机自拍。需要注意,白布的作用是使光照均匀,不会出现明显的高光。手机相机设置专业模式,设置手动曝光。主要拍摄上中下 180° 的角度,需要拍摄 50 多张照片。
第二步:导入 MetaShape 进行照片对齐,看到自拍出来的上、中、下三圈照片。基于软件,我们做了插件,写了脚本能生成相应的点云,以及生成网格和贴图。这个是烘焙出来的贴图,比较模糊。
第三步:走 MeshToMetahuman 的插件,按照官方流程的步骤操作,可以快速得到人体模型。
第四步:第三步其实已经将模型上传到了 MetaHuman Creator 中,可以分配肤色和纹理,毛发和服装,做一些简单的调整。这样我们能够得到虚拟人,并下载下来。这一步我们已经得到了一个所谓的克隆人,但这个克隆人的效果,感觉不像真人,对真人来说没有认同感,因为它没有我的贴图,只有一个模型,最终的效果不太好。
我们也基于这个模型,集成到了 UE。这是早期 MeshToMetahuman 的官方插件刚出来时,我们做的试验。试验的效果和质量,都达不到我们的预期,或者个人的认同。虽然相像,但是对于克隆数字人来说,效果差距较大。
第五步:后面我们又开发了插件,将 MetaHuman 的网格导出,导入 MetaShape 中进行重投影。这时得到的贴图能达到 4k、8k、16k。这取决于我们拍摄的手机。小米手机自拍的效果能够达到 2500 万像素,像华为或者苹果的手机,有的手机像素更高,最终导出来的人脸贴图可以达到 8k 的量级。
第六步:此时得到的贴图,需要在 PhotoShop 中进行简单处理,理论上需要一位有经验的技美处理。我自己现学了 PS,进行了处理。处理时,需要注意眼睛鼻子,这些在拍照时有些信息无法得到,需要进行图像处理。头发和外围的融合需要处理。再处理高光和矫正色相。
第七步:最终再把贴图导入 UE,替换 MetaHuman 中的材质,并调整灯光和环境。这时的克隆数字人,已经有了真人的感觉。我自己的克隆人效果,我觉得可以打到 80 分,能达到自我认同。这个效果做出来花了大概 3 个小时,时间充足的话可以由专业技美进行调整优化,最终能达到 90 分的效果。
我们做出来的克隆数字人,是可驱动的,我们希望结合 MataMaker 平台的语音驱动、动画驱动能力。我们将其集成自研的口型驱动算法,实时驱动口型的演示效果。
--
04
总结
我们希望做通用的数字人解决方案,能够达到零门槛、低成本、高效率、个性化,场景通用、资产通用、驱动通用、和平台通用的通用数字人标准。目前 MetaMaker 在零门槛和低成本,以及高效率和个性化上,基本达到通用数字人的标准,但在通用性上还只走了一小步,要实现场景通用、资产通用、驱动通用以及平台通用上,还有比较多的挑战。
我们今天也提到了 MetaHuman 通用数字人的技术,基于 MetaHuman,我们做了一些改进,可以快速和低成本生成克隆数字人。这套改进方案可以让普通人在普通的场地,通过手机自拍,再结合软件,就能克隆出高质量数字人。这套方案目前仅迭代了两个月,还有一些不足,克隆数字人很真实,但不够美。缺乏 Normal 等贴图。贴图仍需要技术美术修正,以及需要熟练掌握软硬件工具,需要一定经验。
接下来我们会对这套流程进行标准化、模板化,优化迭代效果和效率。结合 AI 技术,以及自动化技术。目前 AI 组件的技术,得到的数字人质量比较有限,贴图可能仅有 1K。所以我们在思考,先用工具重现出大量高质量的数字人,再反哺给 AI,通过 AI 自动化得到高精度的模型和贴图,进一步缩短克隆数字人的制作时间。同时也需要根据克隆数字人在实际应用场景的反馈,进行迭代优化。
今天的分享就到这里,谢谢大家。
|分享嘉宾|