人工智能虚拟人技术已经实现了吗?目前进度如何?
虚拟数字人作为新一代人机交互平台,其发展与制作技术息息相关,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术打造而成,今天可以先来了解一下关于虚拟人的应用技术及其分类。
虚拟人通过人物形象、语音生成、动画生成、音视频显示、交互五个模块构成,大概可以分为两大类:2D虚拟人和3D虚拟人。
2D虚拟人:2D虚拟人根据真人形象建模,和真人相似度极高,主要应用有金融 、医疗、保险,地产传统企业的客服等,可进行多轮对话交互,但不可旋转,虚拟人姿态有限,服饰、发型等外观不支持自由修改,形象相对固定。2D虚拟人不能应用在3D场景里,不能进行3D呈现,同时也不能应用在VR、AR及游戏中。
3D虚拟人:3D虚拟人风格多样化,且可以自由打造风格化外观,应用场景广泛,主要应用场景有内容创作、IP打造、创意类内容打造,具备多交互、多形态、自由修改的特点,可与真实场景搭配进一步提升写实效果。
一、建模
2D虚拟人:2D虚拟人普遍使用静态扫描技术制作,即通过40-60个照相机对真人进行全方位拍照,根据拍照光线和角度进行矩阵扫描,从而在软件中呈现出2D立体形象。静态扫描技术仅需拍照搭配上少量所需数据,就能以较低的成本制作出2D虚拟人形象。
3D虚拟人:3D虚拟人建模对于软件和技术要求较高。
采用动态扫描技术,将采集到的光影效果或是照片数据,通过人脸特征识别、空间变换组件、模型重建组件、骨骼变形组件、纹理融合组件等搭配合成多模态3D模型,除真人形象外,包括卡通、二次元等类型。
二、驱动
1.面部表情
2D、3D虚拟数字人嘴型动作智能合成底层逻辑类似、均建立在输入文本到输出音频与输出视觉信息的关联映射。
2D虚拟人:主要通过视频算法呈现,已采集到的文本到语音和嘴型视频的数据进行模型训练,得到一个输入任意文本均可驱动嘴型的模型,再搭配语音自动识别,对语音进行标注、绑定数据与动作,这样形成虚拟人可对某个特定词语或特定语境做出相应的动作,但动作有限,且重复固定,一般只能呈现正面的形象。
3D虚拟人:驱动方式多样,包括视频算法训练、语音自动识别和动捕设备采集等。通过3D模型与其相对应的BlendShape向量来表达,可呈现三维立体形象、动作灵活、可随意驱动的3D虚拟人形象。
2.全身动作
目前动作捕捉技术是最成熟且呈现效果最好的动作生产方式,可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。其中光学捕捉精度最高、对环境要求最高且硬件成本最高,惯性捕捉抗遮挡能力最强,视觉捕捉算法开发难度最大。
动捕服:需要真人穿戴一整套动捕设备,动捕设备与真人肢体动作相绑定,可实时传递到虚拟人身上。
光学动作捕捉:通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务,即在真人身上粘贴能够反射红外光的马克点,通过摄像头对反光马克点的追踪,从而对真人动作进行捕捉。
惯性动作捕捉:基于惯性测量单元IMU来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪、磁力计的IMU绑定在人体特定骨骼节点上,通过算法对测量数据进行计算,从而完成动作捕捉
三、渲染
渲染技术分为实时渲染技术和离线渲染技术,随着硬件能力提升和算法突破,虚拟数字人的真实性和实时性将大幅提升。二者在渲染时长、计算资源、计算量等方面存在差异,所对应应用场景亦有所不同。
实时渲染:将图形数据实时计算输出,每一帧都是针对当时实际的环境光源、相机位置和材质参数计算出来的图像。渲染花费时间较短,但受限于时限要求计算资源一般不能及时调整。实时渲染多用于3D虚拟人。
离线渲染:图像数据并非实时计算与输出。渲染时间相对较长,计算资源丰富,受时限限制有限,可临时调整更多计算资源。离线渲染多用于2D虚拟人。