万玉龙:OPPO小布数字人的多场景应用实践

Xsens动作捕捉 2023-04-01 7287

导读:OPPO小布助手是国内首个月活破亿的手机语音助手,截止2021年12月,已累计覆盖2.5亿设备,月活用户突破1.3亿,月交互次数突破20亿。2021年9月底,小布助手发布了首个数字人形象,成为业界首个基于虚拟人多模态交互的手机智能助手,融合语音、NLP、视觉等多模态AI算法,结合端云一体的工程架构设计,为用户提供了多终端、全场景的智能交互体验。

全文将围绕以下四点展开:

  • 小布助手的介绍
  • 数字虚拟人
  • 小布虚拟人
  • 未来展望

01

小布助手的介绍

小布助手是国内首个月活突破一个亿的手机语音助手,自2018年12月发布至今,已经累计覆盖了2.5亿设备,每个月会有近1.3亿的活跃用户同小布进行20亿次的交互。

万玉龙:OPPO小布数字人的多场景应用实践  第1张

小布助手是OPPO、OnePlus和Realme三个品牌的手机和IoT设备的内置智能助手,目前已经拥有语音、建议、指令、识屏和扫一扫五大能力。我们致力于将小布打造为“机智、有趣、温暖”的智能助手,为亿万用户提供“多设备、跨平台和多场景”的智慧服务体验。

2018年底我们发布了第一款名为“Breeno”的智能助理,并于2020年5月完成了与腾讯王者荣耀的跨界合作;2020年12月更名为“小布助手”。2021年2月,小布率先实现了月活破亿的目标,同年6月获得了营销媒介创新的“虎啸奖”,同时获得了中国信通院颁发的“安全性、可靠性和隐私性”的可信AI证书。2021年9月,小布助手上线虚拟数字人“布美美”,成为业界首个基于虚拟人多模态交互的手机智能助手;同年12月,三周年的小布完成了IP形象升级。

万玉龙:OPPO小布数字人的多场景应用实践  第2张

--

02

数字虚拟人

1. 需求分析

万玉龙:OPPO小布数字人的多场景应用实践  第3张

基于小布助手线上大量的用户数据分析,可以看到,终端用户的交互需求基本上分为三大类,从基础到高阶分别为:

  • 基础需求 - 方便、高效、解放双手

如通过语音查询天气,设置系统,播放音乐等,主要是为了提高智能设备操作效率。在满足这类需求时,小布更多定位是一个工具。

  • 进阶需求 – 智能、懂我

通过单一语音指令完成app二级指令的复杂任务执行,如通过小布助手完成导航、健康码查询等等。此时小布的定位是助手,随着使用增多,小布会越来越懂用户,并结合情景给用户主动提供一些服务建议。

  • 高阶需求 – 情感诉求

部分用户不仅把小布助手当工具和助手,也会希望小布是“朋友”,时不时进行情感寄托和倾诉。数字朋友一方面形象上要更加拟人化,包括声音、动作和表情;同时对话内容要更贴合用户需求,能够直击用户内心,满足用户的情感需求。

为了更好的满足用户真实需求,我们希望小布不仅在基础功能上有不错表现,同时不断升级迭代,逐步实现用户“数字世界里面的朋友”的愿望。

2. 发展趋势

万玉龙:OPPO小布数字人的多场景应用实践  第4张

回到虚拟助手行业,Gartner报告显示,当前的高级虚拟助手均具备意图识别、易用等通用能力,而缺失数字形象,如上图打星号的部分;通过建立数字人形态,能够帮助虚拟助手的体验更加自然流畅、更加拟人化。

从上图右边报告可以看出,各家助手在打造差异化亮点时,更注重意图识别效果,较少考虑3D虚拟形象的差异化亮点。尽管这是现状,但也说明这一块存在很大的发展空间。

万玉龙:OPPO小布数字人的多场景应用实践  第5张

从Gartner另一份报告可以看到,智能助手让用户印象深刻的功能排名最靠前的是对话式能力,如更拟人化的对话内容、更快的反应速度等。同时排名第五的多模态交互界面和第六的个性化数字人形象也是非常重要的影响因子,这也是当前智能助手做得普遍不好的点。

随着技术的发展和演进,智能助手的能力也在不断提升,从最基础的能力完善,发展到中级能力阶段,再面向未来更多的能力建设。2021年智能助手能力更多集中在上图所示的第二个阶段,其中第三个阶段提到了多模态交互的能力,多意图识别,垂直领域优化,以及更自然、更个性化的语音合成等能力的建设。

万玉龙:OPPO小布数字人的多场景应用实践  第6张

回顾智能交互技术的发展,最早的文字交互依赖用户通过键盘输入文本,并以文字的方式给用户反馈。随着智能手机的发展,更多的交互结合触屏完成,依赖用户手指跟屏幕的多点触控,并以GUI的形式给用户实时的反馈。发展到2015年前后,随着智能音箱等设备形态的发展,用户开始释放双手、用语音与设备进行交互,机器通过语音识别、语音唤醒等技术理解用户需求,并通过语音播报给予用户反馈,让用户更便捷地操作设备。

近几年,随着多模态技术的发展,融合多模态技术的交互也在持续升级,包括信息理解和表达:在语音的基础上,结合对用户表情、动作的识别理解,更好地了解用户意图,同时通过虚拟数字人的语音、表情、动作等跟用户展开更自然的交互。

3. 虚拟数字人的定义

万玉龙:OPPO小布数字人的多场景应用实践  第7张

虚拟数字人的概念本身包括三个关键词:虚拟、数字和人

虚拟的含义在于,数字人是在非物理世界构建的,搭载的设备包括2D/XR的显示屏、全息投影仪等;并以虚拟助手、虚拟主播或数字员工的产品形态存在。

同时,数字人通常需要结合CG等技术进行数字建模,并通过动捕或AI算法模型的方式驱动,整体都是数字化的。

最后,数字人目的是打造数字世界里的人,形象包括卡通、写实、超写实几种;行为上,动作、表情、声音等也和真人一样;理解和表达能力也像人类一样。

--

03

小布虚拟人

1. 概要介绍

前面提到,小布是业界首个基于虚拟人多模态交互的手机智能助手,在2021年9月完成了天气播报和新闻播报两个场景的上线,同时在OPPO抖音官方账号上,也进行了虚拟主播的尝试。从评论区也能看到,大家对于虚拟人的形态接受度还是比较高的。

万玉龙:OPPO小布数字人的多场景应用实践  第8张

介绍一下我们目前用到的两套技术方案:真人驱动和算法驱动

万玉龙:OPPO小布数字人的多场景应用实践  第9张

整个虚拟人的制作流程如上图所示,会在形象设计的基础上做3D建模,并进行骨骼关键点的绑定,之后通过真人驱动或算法驱动产生驱动参数,结合渲染引擎完成形象和动作渲染,最终音视频融合生成虚拟人影像。

音频部分,真人驱动是通过麦克风采集声音,或通过变声器变声得到;算法驱动方案则是依赖语音合成生成文本对应的自然流畅的声音。

真人驱动的动捕参数有两种方案,一种是基于设备捕捉,需要真人穿戴设备完成;另一种是AI捕捉,通过对真人的视频做动作识别生成;算法驱动首先需要基于大量真人数据训练模型,然后根据数字人表现时的文本或音频推理预测驱动参数。

2. 主体制作

万玉龙:OPPO小布数字人的多场景应用实践  第10张

数字人建模流程如上图所示:首先针对产品定位设计出对应形象,转成三视图并对不同人体部位做3D建模,再把骨骼关键点,如中间图中红框圈出的部分,做关键点绑定,最终把蒙皮皮肤贴到3D建模框架上,形成可被驱动的虚拟人形象。

3. 真人驱动

万玉龙:OPPO小布数字人的多场景应用实践  第11张

真人驱动使用的设备分为两种:

一种叫惯性动捕,真人需要戴惯性动捕设备,脸部前会有摄像头跟踪真人的表情变化,通过动捕软件生成动作参数,通过渲染引擎渲染得到实时的虚拟人及动作。

另一种是光学动捕,需要在人体多节点做光标贴合,通过摄像头监测各关键点的动作,生成动作参数,通过渲染引擎渲染。光学动捕精度更高,但对录制环境要求更高,很多3D电影都采用光学动捕方案。

4. 算法驱动

万玉龙:OPPO小布数字人的多场景应用实践  第12张

算法驱动时,先将播报话术文本通过Word Embedding得到文本特征,通过深度学习网络预测当前的动作,输出匹配到某个特定动作的渲染参数序列。同时通过语音合成得到播报音频,提取音频特征,通过深度学习识别其中的元辅音序列,即对应唇型的参数,后这些唇形的blendshape,结合动作渲染参数,最终输入到渲染引擎,得到最终的虚拟人视频。

5. 对话式虚拟人架构

万玉龙:OPPO小布数字人的多场景应用实践  第13张

对话式虚拟人也涉及传统的语音交互链路,如通过端侧的语音唤醒、人声检测,并结合云端语音识别得到用户说话的文本,进而结合语义理解、知识图谱,通过对话平台得到技能内容和需要回复的话术。在此基础上,还需要在云端结合回复文本和音频生成对应的唇形、表情和动作参数,并下发到设备端,使用3D渲染引擎完成数字人的展示,目前有一些交互动作是预置在设备端的。

--

04

未来展望

万玉龙:OPPO小布数字人的多场景应用实践  第14张

未来,虚拟数字人将主要以两种形态存在,一种代表用户本身,是用户的数字化身,用户以数字人的方式在数字世界活动和交互,是元宇宙的一个核心入口,每个用户都会有一个个性化的虚拟化身。另一个数字人是服务于用户的,如虚拟助手、电商主播等。虚拟主播可以7×24小时工作,能大幅降低人力;若干虚拟偶像已经和一些高级奢侈品牌合作代言,不会存在代言人的负面舆论风险;另外就是以小布助手为代表的虚拟助手,能够以虚拟人的方式更自然的与用户交互。

万玉龙:OPPO小布数字人的多场景应用实践  第15张

整体看来,我们认为虚拟数字人会有三大发展趋势:

  • 第一个趋势是高智能

通过更精准的语音识别等技术提升感知能力;同时结合更高表现力的语音合成、计算机图形学等技术,赋予虚拟人更好的表达能力。

  • 第二个趋势是高保真

小布虚拟人等形象更多是以卡通为主,3D建模以美术设计为主。未来通过4D高精度扫描和超写实3D建模,能构建出跟真人更相似的虚拟人;结合高精度动捕和深度学习方案,能生成更流畅、更自然的人物动作;结合高精度扫描和丰富的真人表情学习,能生成更具多情感的生动表情。

  • 第三个趋势是越来越低的制造成本

目前制作一个卡通虚拟人形象都要几万块钱,一个写实虚拟人形象则需要几十万块钱,一个超写实形象就要上百万了,主要的成本集中在美术素材制作。未来随着素材制作流程的标准化和AI算法的迭代,制作成本会进一步降低。另一方面,目前定制虚拟人更多是依赖美术专家或艺术家去完成,未来通过开放一些形象定制能力,结合智能AI捏脸技术,能够进一步降低形象定制成本;并逐步把能力向用户开放,让每个用户都能个性化定制属于自己的虚拟人形象,真正实现千人千面。

万玉龙:OPPO小布数字人的多场景应用实践  第16张

无论是AI驱动,还是素材制作,现有的数据还是很少的。打造更加逼真、更加自然的虚拟人形象,数据是至关重要的,如上图所示,少量数据建模得到的通常是较为简单的虚拟人,随着数据规模的数量级不断提升,所能制作的虚拟人也会越来越好,包括形象、感知和表达能力,期待更多数据驱动更好的虚拟人体验升级。

最后用OPPO的公司使命总结小布助手做虚拟人的初衷,就是“科技为人,以善天下”,所有的技术都是为用户服务的,我们希望通过小布虚拟人这种更拟人化、自然的产品形态提升亿万用户的人机交互体验,让用户的数智生活变得更加美好。

万玉龙:OPPO小布数字人的多场景应用实践  第17张


今天的分享就到这里,谢谢大家。

阅读更多技术干货文章、下载讲师PPT,请关注微信公众号“DataFunTalk”。


分享嘉宾:万玉龙 OPPO

编辑整理:侯艳艳 北京工商大学

出品平台:DataFunTalk


分享嘉宾:

万玉龙:OPPO小布数字人的多场景应用实践  第18张


活动推荐:

万玉龙:OPPO小布数字人的多场景应用实践  第19张


关于我们:

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。


欢迎转载分享评论,转载请私信。

The End