驱动技术：给虚拟数字人注入灵魂

Xsens动作捕捉 2022-12-09 9821

元宇宙应用在国内外市场的需求与日俱增，现象级产品层出不穷。

虚拟数字人是元宇宙应用的基础，是迈入元宇宙的一个切入点。

如何完整制作一个数字人呢？

简单来说有3步：

（1）建模——构建数字人形象；

（2）驱动——让数字人动起来；

（3）应用——在具体场景实现价值。

其中驱动技术是至关重要的一步，它给数字人注入了灵魂，让数字人能说能动。

文本驱动：根据目标文本生成对应的数字人语音及动画，并合成音视频呈现给用户。文本驱动模型是AI技术训练得到的，通过建立输入文本到输出音频与输出视觉信息的关联映射，对已采集到的文本到语音和3D嘴型动画数据进行模型训练，得到一个输入任意文本都可以驱动嘴型的算法模型。除了嘴型之外的动作，包含眨眼、微点头、挑眉等动画目前主要通过采用一种随机策略或某个脚本策略将预录好的3D 动作进行循环播放来实现。

动捕设备驱动：通过动作捕捉设备将捕捉采集的动作迁移至数字人，其核心技术是动作捕捉。动作捕捉技术按照实现方式的不同，可分为光学式、惯性式、电磁式等，现阶段光学式动作捕捉设备占据主导地位。光学动作捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务，最常用的是基于马克点的光学动作捕捉，即在真人身上粘贴能够反射红外光的马克点，通过摄像头对反光马克点的追踪，对真人的动作进行捕捉。

单目摄像头驱动：通过普通的单目摄像头，就能1:1复刻真人动作，让数字人精准、流程的运动起来。其基本原理是利用三维参数化人脸模型对数字人进行表征，对摄像头拍摄的真人的脸型、表情、头部姿态进行回归，把回归得到的系数重定向到数字人身上，同时配合一些CV检测和识别模型，加强算法对眨眼、视线和整体情绪的捕捉精度。

总结：虽然数字人驱动技术取得了一定的成效，但仍存在数字人表情僵硬、肢体动作不协调等问题。中国移动智慧家庭运营中心积极探索多模态智能驱动技术，集成AI视觉、语音智能、计算机图形等多种尖端技术，提升数字人制作水平，将更好的为智慧社区、数字家庭拓展新的交互场景，创造沉浸式、交互式、更多感官维度的体验。

The End

标签：博主很懒，并没有设置标签

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章