AIGC+ChatGPT，虚拟主播进入“同人化”时代

Xsens动作捕捉 2023-04-10 4797

直播经济的高速增长正在推动直播形态的不断升级，经过两年的市场沉淀，备受Z世代消费者喜爱的“虚拟主播”已经迎来爆发式“生长”阶段。

在各大视频直播平台，不同风格类型的个性化3D虚拟主播正在替代真人主播活跃于直播间。虚拟主播大幅度推动了直播业务的发展，不仅可以24小时在线，表现稳定持久；还可以随时变换风格，保持新鲜感；并且在技术有保障的情况下，无需大量团队的接入即可维持正常运营。

快手StreamLake 为蒙牛打造的虚拟员工「奶思」

聊天娱乐、游戏互动、产品讲解、情感语聊等等。虚拟主播的应用场景层出不穷，花样百出，不仅在文化娱乐行业全面赋能，而且在快消、教育、金融、通讯等其他行业方向也能实现高效交互。

虚拟主播不仅提升了品牌的形象力和表现力，更是能作为数字员工服务于品牌，在一些领域替代人工。因此，对以虚拟主播为典型代表的“数字员工”服务能力的要求也越来越高。

如何对用户的提问“对答如流”？

如何提高虚拟主播的直播效果？

如何才能降低虚拟主播的设计和运营成本？

在一系列的问题之下，AIGC技术的成熟与ChatGPT的横空出世，或许给我们提供了更多解题思路。

从“拟人化”到“同人化”，虚拟主播的进阶之路

《2022虚拟数字人综合评估指数报告》这样总结虚拟数字人发展的三个阶段：

第一阶段：拟人化，由计算机虚拟合成的高度逼真的三维动画人物，动作形态声音等与真人吻合，初步基于AI实现虚拟人驱动，实时进行信息沟通和反馈。

第二阶段：同人化，从外观的形态模拟进阶到情感的可交互，情感算法技术实现与人类高质量情感互动。

第三阶段：超人化，虚拟人的能力超越自然人，“虚拟”实体化，机器人承载虚拟人意识回到现实世界。

图片源自《2022虚拟数字人综合评估指数报告》

目前，虚拟主播驱动模式主要有两种：一种是由动捕技术+真人驱动的虚拟人，通过捕捉幕后“中之人”的动作表情塑造虚拟形象，也是目前最为主流的虚拟主播形式；另一种，则是由AI技术驱动，可以做到24小时不间断直播。

从功能上看，动捕+真人驱动的虚拟主播虽然可以在互动环节上实现对答如流，但是仍然需要人工扮演，无法实现24小时的全天候服务。AI技术驱动的虚拟主播可以无限时长直播，但是在交互层面是根据品牌提前设定的知识库模版进行互动问答，同时配合相关活动做一些娱乐形式的展示，利用的范围和领域相对有限。

虚拟主播如何实现既与人类高质量情感互动，又能全天候在线？——AIGC+ChatGPT则让我们看到了实现这种“既能又能”的可能性。

AIGC+ChatGPT，“同人化”的虚拟主播表现如何？

3月15日凌晨，OpenAI 发布了多模态预训练大模型GPT-4。GPT-4可以接受图像和文本输入，输出文本、图片、音视频等多模态，在许多领域的表现都超出了人类平均水平。随后，微软于16日宣布，将推出名为Copilot的人工智能服务，并将其嵌入Word、PowerPoint、Excel等Office办公软件中，实现文本编写，数据分析并生成图标，以及管理收件箱，合成回复草稿等功能。在同一天，中国版的ChatGPT——百度文心一言正式对外亮相。

图源自OpenAI官网截图

国内外互联网科技巨头公司纷纷加入AI大语言模型的建设与布局，这无疑将构建更加良好的人工智能生态圈，推动AI技术能力大幅提升，未来以虚拟主播为典型代表的数字员工将成为企业必不可少的“标准配置”。

ChatGPT为虚拟主播带去了语言能力的大幅提升：

ChatGPT的嵌入，就仿佛为“拟人化”的虚拟人装上了大脑。不仅可以实现更加准确、流畅且自然的表达，更能通过快速的学习和适应，为用户提供更具个性化的服务。通过相关数据的针对性训练形成个性化模型，未来虚拟人将有望应用于线下展厅的AI讲解介绍数字人、线上AI主播、AIGC快速短视频系统等多个场景。

AIGC的助力主要体现在画面和声音层面：

AIGC在音视频生成领域建树颇多。一方面，从语音模仿到变声器等功能，大大增加了互动娱乐性；另一方面，定制化的AIGC工具可以方便创作者制作出画面、声音、动态效果更精确的产品，提升作品综合质量，极大地提高了创作效率。

重播

播放

00:00

直播

00:00

进入全屏

点击按住可拖动视频

世优科技数字人「小倩」

在ChatGPT和AIGC技术的加持下，虚拟主播将进入“同人化”阶段。通过与各行业应用场景不断地深度融合，“同人化”的虚拟主播将变身为企业的数字员工，成为企业降本增效的重要帮手——依靠系统的企业知识库，为用户提供7*24小时的随时服务，协助企业完成重复性工作，并大幅提高基础工作的准确性和服务质量。

生动具体的虚拟形象，加以灵动且人性化的情感交互能力。这是一次运营工具的数字化革命，在不远的未来，一个低成本高效率的数字员工将成为企业的标配。错失一个突破性的工具，或许就将错失一个时代。

“拟人化”虚拟主播VS“同人化”虚拟主播对比图

“虚拟数字人驱动的最终形态，是实现AI驱动，即用‘AI’替换掉‘中之人’所扮演的角色。”虚拟内容技术服务提供商世优科技创始人&CEO纪智辉认为，虚拟主播可以作为品牌的固定资产，在未来一直使用，沉淀价值是无限的。

纪智辉透露，世优科技虚拟人除了接入ChatGPT智能语言模型外，还对虚拟人动作进行了专项训练，以提高虚拟人在应用场景中的流畅度和逼真度。未来虚拟形象的使用可能像每个企业都配备官网、直播间一样普遍，成为不可或缺的对外宣传窗口。

世优科技AI数字人慕兰，语言模型技术在国内数字人上的首次应用落地

2023年3月1日，世优（北京）科技有限公司宣布成为百度文心一言（英文名：ERNIE Bot）首批生态合作伙伴。后续，世优科技将通过百度智能云全面体验并接入文心一言的能力，接入百度文心语言模型的世优科技数字人，让虚拟人向着更加智能、智慧的方向迈出了关键的一步。目前，世优科技已成功推出了具有语言模型技术加持的AI虚拟主播「慕兰」。

世优科技AI虚拟主播「慕兰」

“慕兰，怎样才能发财？”

“要想发财，首先要有规划和耐心，你需要制定一个现实的财务目标，并且不断努力去实现它。”

笔者和观众在慕兰的抖音直播间进行了一场有趣的互动，数字人慕兰可以就观众提出的不同问题，提供流畅简洁又风趣幽默的回答。从直播互动体验效果来看，慕兰已经在智能程度上接近“同人化”，可与观众进行高质量的情感交互。

重播

播放

00:00

直播

00:00

进入全屏

点击按住可拖动视频

「慕兰」直播录屏

这是对话式语言模型技术在国内数字人应用场景上的首次落地。

在世优科技看来，数字人是AI的UI。从2022年主持了百度元宇宙歌会的度晓晓，到如今可以与用户对答如流的慕兰，通过世优科技强大的生成式AI技术能力，与文心大规模实时生成文本能力结合，利用AIGC技术转换成图文、音频、视频等内容，如今的虚拟人已经无需大量的人力支撑内容制作，即可生成具有智能对话能力的个性化模型。

经由世优数字人与ChatGPT+AIGC的技术组合，三维世界与现实世界的隔阂将逐步消融，取而代之的是融合、交互，技术将为现实世界带去更加多元、极具想象力的美好未来。

这也将为数字世界带来颠覆性变革。

结语

调研数据显示，2022年已有近七成的企业表示其公司开展直播的频率有进一步地提升，且有49.0%的企业客户表示其直播频率的提升幅度较大。

如今的企业直播，早已从早期被迫的线上营业，发展成为贯穿医疗、教育、金融、内部培训、对外营销等多种场景，推动企业数字化进程的重要杠杆。

降低营销成本，丰富营销手段；打破时间和空间限制，建立与用户的广泛沟通；打造私域流量，促进转化；收集、留存、打通用户数据……作为数智时代的创新应用，虚拟主播所代表的新一代技术创作能力，已经对传统企业运作、营销推广模式造成了颠覆。

虚拟人早已不仅仅是一个虚拟形象，而是企业的数字资产。谁能在品牌、技术、运营和场景等方向，占据领先优势，构建竞争壁垒能力，方能在新一轮的AI技术狂潮中占领先机，立于不败之地。

The End

标签：博主很懒，并没有设置标签

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章