虚拟人应用技术及分类

Xsens动作捕捉 2023-05-11 4823

概述：虚拟数字人作为新一代人机交互平台，其发展与制作技术息息相关，通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术打造而成，而虚拟人又通过人物形象、语音生成、动画生成、音视频显示、交互五个模块构成，大概可以分为两大类：2D虚拟人和3D虚拟人。

2D虚拟人：2D虚拟人根据真人形象建模，和真人相似度极高，主要应用有金融、医疗、保险，地产传统企业的客服等，可进行多轮对话交互，但不可旋转，虚拟人姿态有限，服饰、发型等外观不支持自由修改，形象相对固定。2D虚拟人不能应用在3D场景里，不能进行3D呈现，同时也不能应用在VR、AR及游戏中。

3D虚拟人：3D虚拟人风格多样化，且可以自由打造风格化外观，应用场景广泛，主要应用场景有内容创作、IP打造、创意类内容打造，具备多交互、多形态、自由修改的特点，可与真实场景搭配进一步提升写实效果。

? 建模

2D虚拟人：2D虚拟人普遍使用静态扫描技术制作，即通过40-60个照相机对真人进行全方位拍照,根据拍照光线和角度进行矩阵扫描，从而在软件中呈现出2D立体形象。静态扫描技术仅需拍照搭配上少量所需数据，就能以较低的成本制作出2D虚拟人形象。

2D虚拟主播

3D虚拟人：3D虚拟人建模对于软件和技术要求较高，采用动态扫描技术，将采集到的光影效果或是照片数据，通过人脸特征识别、空间变换组件、模型重建组件、骨骼变形组件、纹理融合组件等搭配合成多模态3D模型，除真人形象外，包括卡通、二次元等类型。

3D虚拟人

? 驱动

1.面部表情

2D、3D虚拟数字人嘴型动作智能合成底层逻辑类似、均建立在输入文本到输出音频与输出视觉信息的关联映射。

2D虚拟人：主要通过视频算法呈现，已采集到的文本到语音和嘴型视频的数据进行模型训练，得到一个输入任意文本均可驱动嘴型的模型，再搭配语音自动识别，对语音进行标注、绑定数据与动作，这样形成虚拟人可对某个特定词语或特定语境做出相应的动作，但动作有限，且重复固定，一般只能呈现正面的形象。

3D虚拟人：驱动方式多样，包括视频算法训练、语音自动识别和动捕设备采集等。通过3D模型与其相对应的BlendShape向量来表达，可呈现三维立体形象、动作灵活、可随意驱动的3D虚拟人形象。

嘴型动作合成逻辑

2.全身动作

目前动作捕捉技术是最成熟且呈现效果最好的动作生产方式，可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。其中光学捕捉精度最高、对环境要求最高且硬件成本最高，惯性捕捉抗遮挡能力最强，视觉捕捉算法开发难度最大。

动捕服：需要真人穿戴一整套动捕设备，动捕设备与真人肢体动作相绑定，可实时传递到虚拟人身上。

光学动作捕捉：通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务，即在真人身上粘贴能够反射红外光的马克点，通过摄像头对反光马克点的追踪，从而对真人动作进行捕捉。

惯性动作捕捉：基于惯性测量单元IMU来完成对人体动作的捕捉，即把集成了加速度计、陀螺仪、磁力计的IMU绑定在人体特定骨骼节点上，通过算法对测量数据进行计算，从而完成动作捕捉

光学捕捉、惯性捕捉、视觉捕捉对比图

? 渲染

渲染技术分为实时渲染技术和离线渲染技术，随着硬件能力提升和算法突破，虚拟数字人的真实性和实时性将大幅提升。二者在渲染时长、计算资源、计算量等方面存在差异，所对应应用场景亦有所不同。

实时渲染：将图形数据实时计算输出，每一帧都是针对当时实际的环境光源、相机位置和材质参数计算出来的图像。渲染花费时间较短，但受限于时限要求计算资源一般不能及时调整。实时渲染多用于3D虚拟人。

离线渲染：图像数据并非实时计算与输出。渲染时间相对较长，计算资源丰富，受时限限制有限，可临时调整更多计算资源。离线渲染多用于2D虚拟人。

? 虚拟数字人发展趋势

虚拟数字人产业生产及运营成本高，优劣差异化显著，受众群体不断拓展，因而虚拟数字人价值凸显，应用领域不断拓展，未来有望加速商业化进程。

标签：虚拟数字人、建模、驱动、渲染

The End

标签：博主很懒，并没有设置标签

行业新闻