AI与人类一起“打工”,靠谱么?

Xsens动作捕捉 2022-10-03 12869

AI与人类一起“打工”,靠谱么?  第1张

随着技术的更新迭代,数字人进入3.0时代,拥有更加高精的模型,并且能通过人工智能的驱动,提供专业的、个性化的服务。如今的虚拟人也能够渗透到更丰富的场景中,为观众和消费者带来新的内容和体验。《博客天下》采访了百度智能云数字人相关负责人,深入了解当前数字人的发展情况,探讨百度智能云为数字人行业带来的改变。


AI与人类一起“打工”,靠谱么?  第2张

出品 | 博客天下品牌观察组

作者|魏侨

编辑 | 潘冬妮


“还有什么是AI干不了的?”


7月21日,2022百度世界大会上,AI数字人希加加与撒贝宁搭档主持,今晚还要与《沉香如屑》主演成毅跨时空连线对话,AI数字人度晓晓和龚俊数字人秒懂小撒粤语点咖啡需求……似乎正如世界大会喊出的口号所言,人均一个数字人的时代已经到来。


AI与人类一起“打工”,靠谱么?  第3张

2022百度世界大会直播截图



这已经不是数字人第一次进入大众的视线了,6月19日,北京国际电影节宣布虚拟偶像“梅涩甜”担任本届电影节元宇宙推介官,消息一经发布,就在社交网络上引发了热烈讨论。


网友们争执的焦点大多集中在,海报中梅涩甜的外形与其所代表的“未来感”相去甚远。大众注意力仍然聚焦在其外貌特征上,认为“没有必要用一个审美落后的虚拟形象”来作为宣传噱头。


今年5月虚拟偶像团体A-SOUL的珈乐终止活动,揭开了虚拟主播由“中之人”扮演的幕后规则,不禁令人深思——虚拟偶像的“虚拟”是否只是一层皇帝的新衣?


随着数字人科技的发展,事实上,并非所有的数字人都需要真人扮演。同样在5月,国际博物馆日当天,百度智能云曦灵提供独家技术支持,与中国文物交流中心、极幕科技共同打造的首个文博界虚拟宣推官“文夭夭”正式发布。


无独有偶,6月百度APP推出的虚拟AI助手度晓晓风头正劲,先是40秒创作40篇高考作文,并获得48分的高分,又用几十秒创作了4幅画,亮相西安美术学院毕业展,还与百度App代言人龚俊的数字人一起发布了新歌《每分每秒每天》。


AI与人类一起“打工”,靠谱么?  第4张

《每分每秒每天》歌曲宣传海报



显然,有前沿的AI技术作为保障,百度智能云在数字人的生产开发、创作运营上都取得了飞跃式的突破。据悉,文夭夭、度晓晓、希加加,他们之所以能够拥有流畅的“听说读写”等AI能力,均依托于百度智能云去年发布的数字人平台“百度智能云曦灵”。


从虚拟女团A-SOUL、阿里虚拟偶像AYAYI、抖音虚拟达人柳夜熙,到央视网数字虚拟小编小C、湖南卫视虚拟主持人小漾等等,大众往往只闻其名,并不了解他们是如何产生、如何活动的。


日前,《博客天下》走进百度,与百度服务型数字人产品业务负责人侯浩进行了交流,深入了解当前数字人的发展情况,探讨百度智能云为数字人行业带来的改变。



创造00后数字人



2022年的国际博物馆日(5月18日),由百度智能云提供独家技术支持,联合中国文物交流中心、极幕科技精心打造的国内首个文博虚拟宣推官“文夭夭”正式亮相。


这个画着唐代花钿妆容、梳着双髻丸子头、身着一席淡雅长裙、行走在数字化博物馆中的少女,不仅亲和灵动,还通晓古今。未来在博物馆、考古现场、文物修复现场等等,是否也能看到夭夭灵动的身影,充满了想象与期待。


AI与人类一起“打工”,靠谱么?  第5张

首位文博虚拟宣推官 文夭夭



“文夭夭是持证上岗的。”在接受《博客天下》专访时,侯浩说道。


作为文博界的首位虚拟宣推官,文夭夭跳脱了常见的“赛博朋克风”或“盛世美颜系”,以00后大学生结合国风造型的亲民形象,树立了独树一帜的IP标签。


文夭夭的双丸子头源自古代少女发型,同时在发型后部增加了现代编发;妆容融入唐代盛行的花钿装饰,彩色眼线、粉嫩皮肤,整体呈现出少女的清新可爱,更符合现代审美;服装细节运用了盘扣立领的古典元素,颜色清新淡雅,材质上则营造出流光溢彩、富有未来感的效果;腰间配饰的造型源自唐代葡萄花鸟纹银香囊,象征着她文博宣推官的身份。


值得一提的是,扇子的元素在文夭夭的形象设计中贯穿始终。


扇子不仅是她拿在手中的重要配饰,如果仔细分辨服装细节,还能发现上衣遍布扇子形状的图腾暗纹。领口的盘扣用两个扇子拼接,形成一个领口的装饰品;耳坠结合了扇子的百褶以及花朵的曲线;腰间的腰带装饰也融入了扇子设计。


AI与人类一起“打工”,靠谱么?  第6张

首位文博虚拟宣推官 文夭夭



“文夭夭裙子、袖口的百褶,都取自折扇的轮廓,做得很细致,体现出科技与文化的交融。”侯浩告诉《博客天下》。


从古至今,中国的扇文化底蕴深厚,历来有“制扇王国”之称,扇子是贯穿中国历史的标志性文物。在外交场合,扇子常常被作为国礼相赠,文夭夭也将带着象征礼仪之邦的文化符号,跟随国家级的展览赴海外出访交流,传播中国文化。


另一方面,“扇”是“善”的谐音,也寓意着文夭夭的善良单纯,“手执一扇,求的是自我本心,念念向善。”


据侯浩介绍,“数字人的生产过程,先进行原画设计,包括人像、衣服、发型、妆容,以及脸部特征等,然后做模型绑定,类似给木偶穿线,形成骨骼,最后在平台上完成配置和渲染,一个数字人便生产出来。”


侯浩口中的“平台”,就是“百度智能云曦灵”平台,作为一个可以全链路生产数字人的平台,百度智能云曦灵最大程度地简化了数字人的设计难度,降低了数字人的创作门槛。


AI与人类一起“打工”,靠谱么?  第7张

后台运营图


生成数字人形象后,平台内置表情库、动作库。这背后是大量的动作捕捉与数据收集,经过长期的综合分析,形成自然、接近真实的表情和动作。例如当工作人员输入一段文字,辅以与内容相应的表情动作,一段简单的数字人播报视频就生成了。除了AI自主驱动之外,百度智能云曦灵平台也支持真人动作捕捉以及面部捕捉。


在百度智能云曦灵平台上,一张照片或者一段视频就可以制作一段数字人视频。用户照片上传之后,平台对照片进行解析,摘取特征元素之后建模和重组,形成数字人模型的底版。相比市场上良莠不齐的换脸、建模软件,百度智能云曦灵平台有更高的精确度和流畅度。



跨模态的情感交互



相比线下人工讲解员,文博数字人可跨越时空限制,以多个“数字人分身”服务数十上百家博物馆。


再者,运用数字人的优势在于,省去了长年累月学习积累知识的过程,未来打造文博行业的数字人只要接入知识库,并不断升级,各件文物的历史、艺术、科学价值都能如数家珍,上下五千年浩如烟海的历史都将信手拈来。


在录入必备的文博知识之外,同时也有大量开放性知识,共同生成数字人的知识储备,兼具专业性与多元性。开放性知识基于百亿级训练参数的开放域对话模型PLATO-XL,参数达到了 110 亿,被认为是当前最大规模的中英文对话生成模型。


在用户与数字人的交流过程中,可以最大程度地模拟真实的对话交流。同时随着模型的更新迭代,数字人也可以持续学习,在与用户的交流过程中不断调整、完善自身,刷新开放域对话效果。


AI与人类一起“打工”,靠谱么?  第8张

数字人愿景图



当用户通过语言进行交流时,既输出有效的内容信息,也表达个人情绪。而想要实现情感层面的交互,就必须对用户的情绪进行精准的识别、解析,并输出相应的反馈。


值得一提的是,目前百度的语音交互引擎拥有世界首个在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率达到了98.5%以上。


要实现完整的情绪识别与交互,需要同时对语音、表情、动作进行转化和识别。一般来说,输入语音返回的就是语音,输入图像返回就是图像。但在实际的交互中,用户可能输入语音、文字,或者通过摄像头输入图像。不同类型的信息要求数字人都能处理,同时以不同的形式输出反馈,这个能力被称之为跨模态。


例如央视新闻的AI手语主播,除了拥有高精度的3D仿真形象之外,也具备极高的专业度。从北京冬奥会上岗开始,既能完成专业的体育赛事解说,也能跟上朱广权的花式押韵。


在AI手语主播进行手语直播时,需要现将输入的语音转化为文本,在理解语义的基础上“翻译”为手语语序,进行相应的映射,最后通过动作、口型输出。这个过程已经完成了一次跨模态的转化输出。


AI与人类一起“打工”,靠谱么?  第9张

AI手语主播+朱广权



百度智能云在今年上半年已经发布了AI手语平台,为了动作的准确性,工作人员精修了11000个手语动作,同时为了保持手语的连贯,每一个动作中间都需要通过融合算法连接。平台也可以根据需求接入不同的知识库,例如播报冬奥就接入了体育赛事类的知识库。


在AI手语平台上,只要通过语音输入就能直接生成手语视频。如果将AI手语平台搭载在硬件上,就可以形成手语一体机,广泛运用在法庭、银行等等场景,更好地服务于听障人员。


百度的底层的AI技术优势支持着百度智能云曦灵,使得平台上针对不同形式的内容都具备相应的AI能力,才能最终实现数字人真正的跨模态交互。


“最先感知数字人的就是其外在特征,对于好的数字人的理解就是长得好看、高精度。发展到现在,还要看它的内涵,它的感知和认知能力,与用户的交互体验怎么样,有没有持续学习、更新迭代的能力等等……这些是数字人实现差异化,能够脱颖而出的关键。”侯浩对《博客天下》说。



AI技术注入灵魂



迎着风口,市面上以“数字人”为噱头的产品层出不穷,然而,什么才是真正意义上的数字人?


AI与人类一起“打工”,靠谱么?  第10张

洛天依入驻上海杜莎夫人蜡像馆



纵观数字人的发展历史,到如今经历了三个阶段。第一代数字人是如初音未来、洛天依等依靠用户创作内容的虚拟歌手。“初音未来之父”伊藤博之曾表示,设计初音未来这个形象最初的目的,是为了推广雅马哈旗下的人声音乐软件,即后来被广泛应用到虚拟歌手音乐创作的VOCALOID。


精心设计的形象、声优配音并经过处理的声音组成了第一代数字人的雏形,生产内容主要依靠UGC,数字人只提供外观形象,几乎没有自主行为,依靠人为设计来完成行为动作。


动作捕捉、实时渲染等技术飞速发展之后,出现了如绊爱、A-SOUL这样以直播互动、舞台表演等方式活动的虚拟主播。动捕技术解决了数字人的驱动问题,让数字人可以完成自主行为与即时互动。


但第二代数字人仍然不具备独立的行为能力和思想能力。由真人扮演数字人,包含着另一重隐忧。一旦扮演者发生状况,数字人也会受到直接影响,此前绊爱的永久性休眠,以及A-SOUL成员嘉然的退出,都为行业敲响了警钟。


当数字人的行为、能力等都与扮演者高度绑定,数字人的行动也受到限制,很难实现跨时空的活动。这个阶段数字人实现的还是那种一对多的交互,形象千人一面,还没有实现一对一,定制化的交互。


由于其交互能力的限制以及文化渊源,前两代数字人大多为表演型的虚拟偶像,受众主要来自泛二次元用户,形象也以更具二次元动漫特征的2D形象为主。


AI与人类一起“打工”,靠谱么?  第11张

百度数字人



如今数字人发展到第三代,模型更加的高精,不仅在视频、直播中出现,还可以搭载在不同的智能硬件上。依托成熟的AI技术,数字人具有自主思考、反馈、行为、互动的能力,也就是说,真正为数字人注入了“灵魂”。在“表演”之外,数字人也具备了更丰富的能力和活动的空间。


这一代数字人,除了接近真人的外观之外,还需要具备接近于人的行为特征和思想特征,因此“人格化”成为第三代数字人的关键词。


“如果没有人格,数字人就是面无表情的一张画,和动画、视频区别不大,很难和用户产生连接。想要让数字人和用户的互动体验变得更好,那么数字人也要微笑,要有自己的人设,这个形象背后需要鲜明的人物特征来支撑。”


对真人来说,人格是自然流露的行为倾向,而在数字人身上则需要进行细致的塑造模拟。例如,文夭夭的性格被设定为温柔亲和,因此微笑是她最常露出的表情,少有大开大合的动作,言行轻巧灵动,观之可亲。


在以往的数字人生产过程中,往往需要复杂的预先设计才能完成人格的模拟,而百度智能云曦灵平台已经接入了庞大的模型库,包括数字人的动作、笑容、表情、语言等等,每一种能力背后都存在着对应模型库,具备相对完善的输出标准。


当用户输入到需要的性格特质,平台就会输出相应的表情、动作、行为方式。只有足够丰富的模型库,才能实现精准的匹配,实现无缝联动。以及,数字人的打造还需要语音、语义、视觉、大模型等全链路的AI能力来支持。


AI与人类一起“打工”,靠谱么?  第12张

度晓晓高考作文海报



今年高考作文题目披露之后,百度数字人度晓晓在直播中根据新高考一卷作文题目,以围棋术语《本手、妙手、俗手》命题,迅速做出了一篇标题为《苦练本手,方能妙手随成》的高考作文。


文章不仅主题明确、逻辑清晰、论证清楚,还大量运用修辞,旁征博引,文采斐然。在直播间中,语文名师申怡给这篇满分60分的作文打了48分。


显然,度晓晓的文字能力已经摆脱了机械性的拼凑,远远超过大众以往对于AI自动写作的想象。


运用AI技术,通过数据训练让数字人做诗、绘画,直接完成内容创作已经不再是难事。数字人的创作方式也从以往的UGC、PGC过度到AIGC,内容创作、IP孵化模式也进入了新的阶段。

The End