「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预

Xsens动作捕捉 2022-10-16 19095

两会期间，新华社一个百变新闻主播火了一把！

看起来，她长得有点儿像新华社记者赵琬微，却可以一秒换装、实时换发型，还可以同时穿梭在不同的虚拟演播室中。

她就是搜狗和新华社联合推出的、全球首个3D AI合成主播「新小微」。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第2张

在不需要后期填补细节的前提下，「新小微」就已经达到了非常逼真的效果，立体感和交互能力几乎和真人无二。甚至在特写镜头下，连头发丝和皮肤上的毛孔都看得清清楚楚。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第3张

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第4张

轻轻松松无缝换装，西装外套像变魔术一样瞬间从蓝色变成了红色，简直是新闻界「百变小樱」。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第5张

不光能坐着播新闻，还能在虚拟直播间里走来走去。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第6张

实际上，「新小微」的诞生，是利用搜狗核心人工智能技术「搜狗分身」，在采集赵琬微真人海量数据的基础上，用AI算法生成的全球首个3D 虚拟主播。

只要输入文字，就能实时生成逼真的3D数字人视频，轻松做到对口型、秀表情、切机位。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第7张

全球「首个」3D AI合成主播：实时多景深切机位，业内第一家

当然了，「全球首个3D AI合成主播」的称号可不是随随便便就能叫的。

而两会作为全国最重要的会议之一，对新闻播报的专业度、精确度、实时性等，都有着非常苛刻的标准，更是半点都马虎不来！

搜狗3D AI合成主播经受住了这次严峻的考验，在以下5个方面展现了过人的实力。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第8张

超写实

高清特写镜头下，「新小微」的皮肤材质、毛孔、牙齿、嘴唇、眼睛、头发都清晰可见；AI合成主播讲话时，语音和唇动配合十分默契，面部的肌肉运动也十分流畅。同时，AI主播的眨眼、头动、身摆也更接近真人。

3D场景

可以做到对3D数字人360度的展现、全方位的呈现，这使得未来可以运用在多机位、多景深的场景下。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第9张

实时文本驱动

「我只是给了她一段文字，她却还了我一段逼真的视频」。

搜狗AI技术已经拥有了给到一个文本，就能实时输出一个视频或者视频流的能力。请注意，它是实时的。

现在大家在游戏中、电影中看到的很多NPC人物或3D电影角色，他们可能都是3D建模的，但都需要在前期和后期投入了相当大的人力、时间、财务成本，才能保证模型足够的写实。

灵活可控

3D AI合成主播是一个完全参数化的、数字化的模型，基于这个模型可以让它做各种各样的动作，可以让他走路、做各种手势，同时头动、身体的运动都非常自然，具有很强的灵活可控性。

更强的灵活可控性，代表着这个数字虚拟人可以做出更多复杂的动作，从而适合更多的场景。比如做主播做新闻的时候，可以随时走动、做出各种肢体动作；做老师讲课的时候，可以跟学生互动，做手势等。

低成本迁移

将一个真人的各种数据做半自动化的数据标注，产生出大量的3D运动数据，结合语音数据、图像数据，共同做多模态建模，最后生成一个可驱动的3D数字人。

我们可以听到AI主播的声音十分接近赵琬微，而在预训练模型的基础上，只用了赵琬微一个小时的语音数据，再做做微调，就实现了！成本简直不要太低。

纯AI模型，效果远超传统3D建模技术

「搜狗分身」的AI硬实力，为传统的3D技术创造了无限的想象空间。传统写实类的3D模型，很多是采用blendshape或骨骼动画去做的。做AI的小伙伴可能不是很熟悉这两个产品，下面我们简单介绍一下。

blendshape是3d软件里用来做模型形变的一种技术，通过调整权重，设计师可以将目标模型变化成一系列预定义的模型，或者这些模型的任意线形组合。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第10张

骨骼动画模型是动画中的一种。在骨骼动画中，模型具有互相连接的「骨骼」组成的骨架结构，通过改变骨骼的朝向和位置来为模型生成动画。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第11张

但是，单纯用骨骼动画，模型中只有骨骼参与了移动，没有考虑肌肉协调身体其他部分（比如面部表情）的联动效应，做出的效果就没有这么逼真。

那么搜狗的3D AI合成主播是如何实现的呢？

首先，基于真人原型采集海量数据：真人赵琬微戴着数据采集头盔，几百个摄像头对其身体各个部位360度全方位「打点」扫描，采集每一处细节，并对其多种形态的表情和动作进行细致入微地捕捉记录。

其次，采用了行业领先的扫描还原算法，以及面部肌肉驱动、表情肢体捕捉等技术，生成高逼真度的3D 数字人模型。

最后，通过搜狗分身的多模态生成算法对3D数字人模型进行实时驱动、渲染，使其面部表情、唇动、肢体动作和语言表达能力实现了高度契合。

3D AI合成主播采用的是全球最领先的肌肉绑定3D模型，从面部表情到肢体动作的细节，达到了影视级作品及游戏NPC的写实度，有时候甚至更高、更自然。

纯AI驱动，真正实现了「降本增效」

实际上，游戏或电影里面早就有了类似的虚拟数字形象，那么跟搜狗的3D AI合成主播相比，有什么区别呢？

首先，游戏及电影行业多是靠人工驱动才能实现一个高写实的3D模型，需要投入大量的人力和财力成本。扫描一个人，再投入大量的人工，采集他讲的每一个字、每一个发音、每一个动作，靠美术师自己勾画出来，一点一点提升写实度，制作一个小时完整的3D写实视频，大约需要花几千万人民币。

我们也咨询了游戏行业的专家，对AI主播的效果还是比较认可的。「如果想制作一个写实度这么高的3D视频，一分钟视频，一个专业的美术师差不多要花一个月的时间。」

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第12张

其次，像现在市面上一些比较火的卡通形象（如洛天依）都是靠真人采集，没有做到真正意义上的AI驱动，搜狗AI很容易就能实现这种仿真的数字形象。

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预第13张

而「新小微」使用了端到端的模型，靠AI算法实时驱动。输入一个文本直接就能输出一个视频或者视频流，生成1分钟左右的视频，仅需要1分钟，总体来看效率几乎是实时的。

此次官方宣称的「全球首个」，是因为他们做了一个3D的、基于AI驱动的数字合成主播，这是全球首创的，而并非一个简单的3D虚拟形象。

更厉害的是，这个3D虚拟主播是在不输游戏中人物写实度的前提下，完全使用AI来驱动。

打造真正的「虚拟个人助理」：逼真、实时、可交互

说白了，3DAI合成主播只是一个演示案例。但这个案例，却是搜狗「以语言为核心的AI战略布局」的一次具象化体现。

使用「搜狗分身」技术，能够构建很多数字人的形象。利用这些所谓的「分身」，可以代替本人做一些重复性的繁杂工作，把人真正解放出来，有更多精力去做更多创造性的工作。目前「搜狗分身」已经具备了3个特点：

多领域。包括媒体、客服、司法等领域都得到了应用
可交互。作为一个真正的数字人，可以与人进行对话
多语种。不仅支持中文，还支持中英日韩俄五种语音播报

除了和新华社合作推出3D主播，搜狗还和平安普惠合作，将「搜狗分身」应用在面审客服上；和北京互联网法院合作，推出首个AI虚拟法官；搜狗自己还推出了自有IP主播「雅妮」，以及全球首个AI营养师。

显然，做虚拟主播并不是搜狗的真正目的，毕竟这个和他们未来目标相比，难度太低了！

他们真正想要的，是通过文本、语音、图像融合而成的高逼真数字人，让AI成为可交互、懂人言、拟人化的虚拟个人助理（VPA）。

今天的「新小微」在新华社做主播，明天的「新小微」在你身边做小助理。

这，才是真·智能个人助理。

The End

标签：博主很懒，并没有设置标签

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

行业新闻

全球「首个」3D AI合成主播：实时多景深切机位，业内第一家

超写实

纯AI模型，效果远超传统3D建模技术

纯AI驱动，真正实现了「降本增效」

打造真正的「虚拟个人助理」：逼真、实时、可交互

相关文章