多模态数字人驱动技术及应用

Xsens动作捕捉 2023-05-09 4108

导读:近年来,区块链、大数据、人工智能等技术加速创新,日益融入经济社会发展各领域全过程,元宇宙相关领域迎来井喷式发展,“数字人”作为元宇宙的关键载体,但依靠传统的动捕驱动模式无法得到普及,如何实时驱动数字人的动作和表情,并尽可能地减少动捕依赖,一直以来都是各大科技公司竞相角逐的着力点。本次中科深智联合创始人兼任 CTO 宋健为大家带来数字人技术专题分享,分享的主题是:“多模态数字人驱动”,阐述以多模态输入为主的实时的虚拟人动作和表情的驱动和生成技术,让数字人除了“好看皮囊”外,也可以拥有“有趣灵魂”,最后带来中科深智关于元宇宙及应用布局的思考。

本专题介绍围绕下面四个部分展开:

  • 数字人驱动技术演进介绍
  • Motionverse 动作生成中台
  • 融入多场景的多模态驱动应用
  • 中科深智元宇宙技术布局

分享嘉宾|宋健 中科深智 CTO

编辑整理|吴靖楠 厦门国际银行

出品社区|DataFun


01/数字人驱动技术演进介绍


数字人,也称虚拟人,是指通过建模、动作捕捉、AI 等科技手段,制作出具有人或类人的外貌特征和行为模式 并通过显示设备呈现出来的虚拟形象。数字人从 20 世纪 80 年代开始,经历了萌芽、探索、初级及成长各个发展阶段,技术路线日趋成熟,正逐步走入大众视野。


多模态数字人驱动技术及应用  第1张


商汤智能产业研究院针对数字人的实现难易程度,并根据数字人在拟人化程度、自动化水平、应用场景三个方面的表现水平,将数字人分为 L1~L5 五个等级:

  • L1 级:数字人形象写实,以 CG 人工建模制作为主,主要用于传统动画制作及平面展示,应用场景非常局限。
  • L2 级:数字人实现了写实形象的生成展现和动作表情交互,但主要依赖外部动作捕捉设备等完成中之人驱动,实现口型、表情、肢体动作等信息采集,应用场景有所拓展,但依然局限于传统的视频录播和影像制作上。
  • L3 级:在 L2 写实形象和动作表情交互的基础上,能够通过大数据和算法来驱动数字人完成口型、表情、肢体动作的的驱动和表达,应用场景开始往部分实时驱动交互的动态场景上延伸。
  • L4 级:这个阶段的数字人以写实形象和动作表情实时生成及驱动为核心,也拥有了一定程度的理解智能能力,但依然“真假可辨”,主要以被动感知和人工指令输入驱动为主, 主要应用于垂直领域,比如在规范化的客服或虚拟人直播领域,能够替代人工完成一些程序性工作。
  • L5 级:完美形态下的数字人,既拥有“好看的皮囊”,形象精美高度写实,表情动作驱动流畅自然,还拥有了“有趣的灵魂”,能够完全理解用户意图并主动表达,不断适应环境变化,做到主动感知及驱动,完成自我学习和成长。

数字人从 L1 到 L5,技术深度由浅入深。当前中科深智持续深耕 L4 级智能交互数字人,并逐步向 L5 级数字人演进,下面重点分享下中科深智基于自研 Motionverse 动作生成中台的实时动作及表情的驱动和生成技术。

--

02/Motionverse 动作生成中台


宋健老师认为,动作和表情驱动是虚拟人技术的关键,而依赖单一技术难以满足所有应用场景。中科深智自研的 Motionverse 动作生成引擎,该动作生成引擎由多模态动作指令收集、数字人驱动智能模型构建及影像生成、实时动画影像输出展示三大部分组成,如下图所示。


多模态数字人驱动技术及应用  第2张


1. Motionverse 工作流

首先,基于 Motionverse 多模态动作生成驱动引擎,融合了 XR 和 AI技术,可根据不同场景,支持语言、文本、传感器多种驱动方式,实现多模态动作指令输入。


多模态数字人驱动技术及应用  第3张


在完成动作驱动输入数据的基础上,经过 RTC Streaming 实时传输或数据封装,Motionverse 中台能够将这些接收到的输入指令及数据,通过 AI 算法进行模型训练,解析并生成对应的动作表情数据,形成动作表情数字资产,进一步运用其不断积累的数字资产和模型组合驱动数字人,实时生成千人千面的动作和表情,赋予数字人更强的表现力和生命力。最后在 HIVE 云端完成二维、三维图像及全息模型的影像渲染及生成,使得数字人更逼真写实。

2. 大规模数据集及动作视觉语言模型

多模态风格化动作数据解析及生成是 Motionverse 中台的核心技术模块,而数字人的动作解析及生成离不开大规模数据集训练以及动作视觉语言模型构建。通过专业的动捕采集设备完成大规模的动作表情数据采集,在规范化的数据预处理及标记后,不断地训练、模拟动作视觉语言模型,提升模型的准确度及效率,依靠模型推理,再根据不同的应用场景要求进行相应的后处理,最终输出到相应的工具平台或融入到具体的业务流程中。中科深智当前累计完成约 150 小时的动作视频采集,视频帧数以达到千万级别,以此支撑表现内容丰富的实时动作表情输出。


多模态数字人驱动技术及应用  第4张


Motionverse 中台支持传感器、文本、文本、视频、控制器、传感器、脚本等不同的动作驱动及输入方式。这里的脚本输入即包括传统的动画模版、动画播放等预设脚本指令,也支持 AI 脚本指令输入。除了如下图示的多种驱动方式外,Motionverse 中台还支持数字人的风格化设定;风格化指的是同一个人在不同场景下,其语音、语气、动作表情等存在表现形式上的不同,如日常办公、对客服务场合下可能有表达规范上的要求,而在家庭亲子互动场景中则比较亲密自然。


多模态数字人驱动技术及应用  第5张


--

03/融入多场景的多模态驱动应用


1. 从稠密到稀疏的传感器数字人驱动

在传统的数字人驱动模式下,需要通过在中之人不同的关节增加更密集的惯性、光学等动捕设备传感器来获取真人的动作数据,以不断提升动作还原精度,但也带来了算力成本及复杂度要求增加。Motionverse 多模态动作生成驱动引擎能够实现只需少量的动捕设备辅助,其余依靠 AI 智能算法模型的解析及推理便可生成实时动作数据。


多模态数字人驱动技术及应用  第6张


多模态动作生成驱动引擎,在通过充分的数据集训练后,可以生成特定场合下的数字人动作,甚至手的动作都可以通过手臂的姿态来进行高度还原。如下图的抖音直播画面中,两个数字人与《霍元甲》歌曲节奏高度合拍,“高举”直播道具完成了双人齐舞,该场景只通过 3 个 Tracker 传感器(头部 1 个+双手 2 个)采集中之人的头部及手臂动作数据,其余动作如手握道具、步伐走动则完全依靠模型自主生成。


多模态数字人驱动技术及应用  第7张


2. 多种情绪的语音驱动微表情

区别于卡通风格的夸张、简单的面部表情,Motionverse 多模态驱动引擎通过不断收集多种情绪下的面部表情数据,辅以高精度面部骨骼绑定和大规模的数据集训练,实现高兴、悲伤、生气、惊讶、中立、恐惧、厌恶等 9 种情绪下的丰富的面部微表情。作为超写实数字人驱动技术的核心,Motionverse 驱动的多种情绪下的表情和动作,使得超写实数字人更加逼真。


多模态数字人驱动技术及应用  第8张


3. 客服类数字人动作生成

Motionverse 可以直接通过语义和声音驱动数字人,完成特定场景下的手势动作自动生成,并与声音把持协调。如下举例客服类数字人动作生成场景,在 42 秒的客服播报中,画面中的虚拟主播手口并用地给大家推介葡萄酒,其动作完全依靠语义和声音生成,手势自然流畅不重复。


多模态数字人驱动技术及应用  第9张

--

04/中科深智元宇宙技术布局


1. 开放不同层次的 SDK 接入元宇宙

Motionverse 通过开放 SDK,让动作表情数据进入到不同工作流、工具平台以及元宇宙中,完成跨系统、跨生态的连接。共有四个层次的 SDK 接入方式:

  • 数据:Motionverse 通过提供数字人驱动数据给动画、影视、游戏制作公司等客户,这些公司一般都具备一定的数据处理及模型渲染能力,可以将数据重定向到设定的角色上再作处理,或直接用来做直播渲染。
  • 数据+资产:如品牌公司、运营机构等本身数据处理能力储备不足,Motionverse 则可以通过数据和数字人资产的 SDK 输出模式,直接提供给客户。
  • 数据+资产+云渲染:通过 RTC Streaming 方式提供的 SDK 接口,为企业级客户如银行、保险等金融机构提供数据、数字人资产以及云渲染,能够便捷地集成到企业工作流当中。
  • 数据+资产+云渲染+工作流:通过定制化模式为行业提供通用工作流服务。


多模态数字人驱动技术及应用  第10张


2. 完成多人表情动作交互的场景延伸

在中科深智看来,单个数字人的播报及动作表情生成有其局限性,相比之下,两人或多人的表情动作实时交互更具现实意义。在多人互动的情景下,人与人之间的动作表情具备关联性,通过 Speaker 的动作表情,可以推断出 Listener 的动作表情。中科深智将于近期推出多人互动下的动作表情交互的 SDK 接口,不断丰富实时互动的交互场景,提升服务能力。


多模态数字人驱动技术及应用  第11张


3. 实现基于语义的长动作生成和表达

下图按照视频帧预估有 500 帧共计 10 秒左右的长动作表情生成画面,如何在充分理解文本语义(如人物性别、年龄、环境)的基础上,有节奏、突出重点地进行动作、情绪的表达并保持和环境的交互,也是中科深智的技术布局重点。


多模态数字人驱动技术及应用  第12张

--

05/总结


中科深智基于 Motionverse 数字人动作及表情驱动的生产技术引擎,面向企业级市场已发布分别针对数字人云制作、数字人直播、虚拟客服的三款 SAAS 软件,针对个人客户提供来客户端产品以实现实时数字人驱动的动作生成,并通过开放不同层次 SDK,实现与多个元宇宙的连接。

宋健表示,中科深智将始终保持初心,坚持以软件和算法为主驱动,构建3D 实时动画和 AI 数字人场景,打造元宇宙基础设施,提供全栈式解决方案,完成内容生产和价值创造,其前瞻性的技术布局,也为元宇宙的未来提供更多可能。

今天的分享就到这里,谢谢大家。


分享嘉宾

多模态数字人驱动技术及应用  第13张

宋健|中科深智 CTO

北京中科深智科技有限公司联合创始人,CTO。

宋健先生本科毕业于中国科学技术大学,硕士毕业于北京大学。

宋先生对多个技术领域具有深入的了解和参与,对多种IT技术由独到理解,在二十多年的职业生涯中,宋先生创建了多家公司,涉及到游戏、流媒体、软件、硬件等多个领域。


DataFun新媒体矩阵

多模态数字人驱动技术及应用  第14张

关于DataFun

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。

The End