如何快速制作虚拟数字人面部动画，一段音频即可

Xsens动作捕捉 2023-05-09 2254

“忘不了你的爱，但结局难更改……”，一曲《男孩》唤起了许多人对校园生活的美好回忆，也让盘腿而坐，抱着吉他唱着《男孩》的清华大学学生华智冰迅速出圈。而抖音美妆达人柳夜熙，凭借流畅生动的妆容分享，圈粉无数，更是一跃成为虚拟人中的“带货一姐”。

除此之外，还有拍了VogueMe杂志，上了央视综艺，接了特斯拉代言的打工人翎Ling，跨年演唱会上与周深同唱《小城故事》的“邓丽君”，湖南卫视全新综艺《你好，星期六》启用的数字主持人“小漾”......，各种形象、各种功能的虚拟数字人已经不知不觉地走进了我们的生活。

而为了让这些虚拟数字人更真实和自然，不仅需要以假乱真的建模技术，还需要在表情、动作以及交互能力上进行提升，这对虚拟数字人的制作提出了较高要求。

NVIDIA研究团队开发了一项“黑科技”，仅需一个音频来源，即可快速轻松生成表情丰富的面部动画，从而能够帮助开发者和内容创作者制作出更加自然的虚拟数字人。

一、虚拟数字人面临表情和互动不够自然的困境

随着元宇宙概念的大热，以及疫情叠加下人们对数字生活需求的增加，虚拟数字人的发展步入了快车道，出现了很多类似于华智冰、柳夜熙、翎Ling等超写实虚拟数字人。

而人与这些虚拟数字人最大的区别是有感情、能够体会到喜怒哀乐，且能够把喜怒哀乐实时地通过语言、表情等来体现。而虚拟数字人不具备自然表达的能力，这使得虚拟数字人被吐槽一眼假、不够真实。

如果想为虚拟数字人引入最接近“人”的喜怒哀乐，且具有实时的交互能力，不仅要进行配音、口形适配，还要考虑当前的语态、语境，进行面部表情分离，并重新渲染面部表情。

过去常通过面捕技术来驱动虚拟数字人面部与嘴型的变化，整个环节非常复杂，时间、人力、物力成本巨大。开发者和内容创作者亟需成本更低、开发更简便的工具来降低虚拟数字人的制作门槛和成本。

二、仅需一个音频实时生成虚拟数字人面部动画

随着虚拟数字人的不断发展，AI技术成为制作虚拟数字人的重要工具。去年，NVIDIA 在其 Omniverse 平台上推出了 Audio2Face 功能，可以让大家轻松地为虚拟数字人制作面部动画。现在点击“AI Playground | NVIDIA 研究NVIDIA
HomeMenuMenuCloseCloseCloseCaret down iconCaret down iconCaret up iconCaret right iconCaret right iconCaret right iconCaret left iconCaret left iconCaret left iconShopping CartSearch iconNVIDIA 引领人工智能计算
NVIDIAFacebookTwitterLinkedInYouTubeNVIDIA”就可以观看 Omniverse? Audio2Face 动画演示：只需单击按钮即可为面部动作设置动画效果。

Omniverse 是 NVIDIA 的实时3D设计协作和虚拟世界模拟平台，不仅能够加速各种复杂的3D工作流程（涵盖从概念构思到最终交付的各个工作流程），还能够以突破性的新方式实现先进创意和创新的可视化、仿真和编码。

而 Omniverse? Audio2Face 则是一个经过人工智能训练的工具，仅需一个音频来源（离线语音录音或实时音频），就能立即为虚拟数字人生成富有表现力的面部动画。

此外，Audio2Face 可简化3D角色的动画制作，与任何配音音轨匹配，无论是为游戏、电影制作动画角色，还是单纯为了获得乐趣，都可以使用；还可以将其用于实时互动，或作为传统的脸部动画创作工具使用。

三、“全流程+低代码”助力虚拟数字人制作便捷化

作为加速虚拟数字人制作的有力工具，Omniverse? Audio2Face 整体的运作方式如何呢？具体如下图所示：

Audio2Face 预先载入名为“Digital Mark”的3D角色模型。此模型可按照音轨进行动画处理，用户只需要选取音频并上传至应用程序即可。该应用会将音频输入馈送到经过预训练的深度神经网络，然后根据神经网络输出的内容，调整角色网格的3D顶点，以实时创建面部动画。同时，使用者还可以选择编辑各种后制参数来优化角色的呈现效果。此外，使用者也可以逐步引导虚拟数字人的情绪，像快乐、惊奇、愤怒和悲伤等关键情绪都可轻松混合。

上面也体现了 Omniverse? Audio2Face 的两个特点：全流程和低代码。开发者甚至不需要掌握专业的知识，就可以完成一个虚拟数字人的制作。此外，Omniverse? Audio2Face 还有以下几个亮点功能：

1、音频输入：使用录音或实时制作动画

输入的音频，既可以是录制好的语音音轨，也可以是通过麦克风实时输出的音轨。Omniverse? Audio2Face 都能够按照这些音轨实时制作动画。

Audio2Face 还能够轻松处理任何语言。此外，它还将不断更新该应用，使其能够处理越来越多的语言。

2、角色转移：瞬间换脸

由于Audio2Face 预先载有“Digital Mark”的3D角色模型，所以它可以生成任何风格的人物角色或拟人角色的脸部动画。除了虚拟数字人外，风格化虚拟角色，甚至是动物、外星人都适用。

3、扩展输出：多音轨生成多个动画

Omniverse? Audio2Face 还可以同时执行多个动画生成，如在对话的二人组、清唱的三人组和协调一致的四人组等，为虚拟数字人的歌唱注入生命与声音。使用者也可以对每个面部表情的细腻程度进行调整，并从多个音频源批量输出多个动画文件。

4、数据转换：连接和转换

Omniverse? Audio2Face 不仅支持 BlendShape 转换，还支持 Blendweight 导出选项。此外，Audio2Face 也支持通过 Epic Games UE 4 执行导出与导入工作流程，使用 Omniverse UE 4连接器生成超人类角色的动作。

5、情感控制：选择不同的情绪生成

除了说话外，Omniverse? Audio2Face 还可以打造各种情绪的角色动画。神经网络会自动操纵脸部、眼睛、嘴部、舌头和头部运动，以匹配使用者选择的情绪范围和定制的情绪强度水平，或自动直接从音频剪辑中推断情绪。

6、Audio2Emotion：通过音频文件生成逼真的面部表情

这是近期推出的一项新功能，让能够从音频片段中推断情感的AI自动为面部动画设置关键帧，从而控制虚拟形象的情感表达。

7、全脸动画：全脸器官的动画生成

Omniverse? Audio2Face 除了能够让使用者管理虚拟数字人的皮肤以外，还可以对其眼睛、牙齿和舌头的运动进行管理，以便制作更完整的面部动画。

8、角色设置：更精细的角色换脸

角色转换重定向工具现可支持全脸动画，并提供易于使用的工具，用于定义构成眼睛、牙齿和舌头的网格。

四、AI驱动的超写实虚拟数字人将加速普及

近年来，AI在虚拟数字人生成和驱动上展现了较高的效率。过去由CG+动捕+Vocaloid语音合成方式，制作的虚拟数字人面容、身体、声音、动作，现在均由AI来实现。而这类虚拟数字人具有真人质感、辨识度高、互动性强的特点，是更接近人形的“超写实虚拟数字人”。

作为 NVIDIA 研究团队的重要成果之一，Omniverse? Audio2Face 可以使虚拟数字人的开发门槛和制作成本迅速降低，让开发者和内容创作者参与其中，加速虚拟数字人在更多场景的应用和普及。

之后，我们还将陆续介绍 NVIDIA 研究团队推出的计算机视觉、深度学习模型以及有意思的交互式Demo，如输入文字即可P图，秒变风景大片的 NVIDIA GauGAN2 ，输入一句“海浪击打岸边石”，立刻输出一张逼真照片。

体验更多人工智能和深度学习互动Demo，点击"「链接」"立即体验 “NVIDIA AI 互动 Demo”。

The End

标签：博主很懒，并没有设置标签

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章