聊聊卡塔尔世界杯上的“手语数字人”
阿根廷再次举起了大力神杯,宣告着这届几乎每场比赛都挑动观众心脏的世界杯落下帷幕。从11月21日至12月18日,不到30天的时间里,全球数十亿人在屏幕前,共同欢呼,相继落泪。自上世纪50年代,世界杯首次使用电视转播以来,越来越多的人能够享受这一盛宴。
咪咕是国内获得世界杯转播权的平台之一,看咪咕的小伙伴不知道注意到没有,视频左下角可以打开一位身着红衣的数字人女孩,是由将门投资企业——智谱AI,研发的手语数字人华同学。她可以用自然而连贯的手语动作,传递着赛场上的“声音”,帮助听障人士“看”懂比赛。这是数字人技术在世界杯上的一个“温暖”应用。今天,让我们一起聊聊这个技术背后的原理。
目前,大多数虚拟数字人上视频节目一般采用非实时,大量工作需要通过后期制作完成,这样肯定无法满足手语播报的实时性要求,当然也有通过由运动跟踪设备实时驱动的,但要求每期节目制作都必须有真人进行表演以驱动虚拟人,因而需要投入大量的人力、物力。这次咪咕展示的手语数字人“华同学”实现了手语实时播报,技术上采用全自动的文本实时驱动,降本增效,该技术集成了数字人建模、语义蒸馏、机器翻译、跨模态拟人生成、实时动作-表情-手势驱动等多项AI技术。
华同学以超大规模预训练模型为基础,应用跨模态拟人生成算法、超高精度写实数智人技术等实现AI手语实时播报。首先用中文语义蒸馏模型算法提取出有效的关键语义信息,然后用AI 手语分词快编算法把语义信息转换成符合手语表达的词汇序列,最后驱动生成数智人手语视频流。
简单来说,数字人是完全由算法驱动的,输入“语音流”,通过算法自动转换成了手势、嘴形、脸、身体姿势等。而它的算法原理主要包括:语义蒸馏、AI 手语分词快编算法、跨模态拟人生成算法、音字人实时同步对齐技术等。
(1) 语义蒸馏
由于手播速度远不及口播速度,字幕和手语词序列的长度存在时间不对等问题,如何在不影响原意的基础上,保证手语表达内容与播报画面容同步是一项重要技术。该技术正是语义蒸馏,即通过修改输入文本的语法和结构使其更容易阅读和理解,同时保留其基本思想并接近其原始含义。语义蒸馏技术主要以GLM(General Language Model,通用语言模型)预训练模型?[1]?[2]为基础,采用了质量控制信号作为有限制生成信号以及对比学习思想,实现了精准高效提取核心语义信息。评价指标Rouge-2为42.45;每500字文本语义蒸馏时间约为1.94s。相比于MUSS方法?[3],Rouge-2提高了1.97。
GLM预训练模型基本原理是基于自回归空白填充,按照自编码的思路,从输入文本中随机地空白出连续跨度的token,并按照自回归预训练的思路,训练模型依次重建这些跨度。鉴于GLM可以在自然语言理解(NLU)和文本生成(含有条件和无条件)方面表现出色,采用GLM预训练模型进行微调以实现语义蒸馏。
为了使语义蒸馏后的句子内容语义相对可控,设置质量控制信号作为有限制生成信号。质量控制信号是指句对中的复杂句与简单句之间的比值信息来表示词法复杂度、句法复杂度以及句子长度等。具体来说,质量控制信号包括句子长度比、编辑距离比、词汇复杂度比和句法树深度比等信息。由于标注数据集缺乏,采用基于无监督学习方式挖掘复杂句-简单句句对并计算每个句对之间的质量控制信号。
GLM预训练模型在各种条件文本生成任务上取得了显著的性能。然而,其中大多数研究是在Teacher-Forcing机制下训练,容易出现暴露偏差问题。为解决该问题,采用对比学习框架,将模型暴露于给定输入语句的各种有效或不正确的输出序列。根据对比学习框架,可以通过对比正对和负对训练模型学习Ground Truth的表示,其中从同一批中选择负对作为随机的非目标输出序列,然后将源文本序列和目标文本序列投影到潜在嵌入空间。最终使源序列和目标序列对之间的相似度最大化,同时使负序列对之间的相似度最小化。
通过以上方法的结合,不仅可以保证简化内容质量可控,并且能够提高简化句子的忠实度,为下一步AI手语分词奠定基础。
(2) AI 手语分词快编算法
针对中文文本语序与手语语序差异大以及手语语序规则不统一的问题,研究基于AI手语分词快编算法。AI 手语分词快编实则属于低资源的机器翻译任务,即将语义蒸馏后的文本序列作为输入,通过分词快编,形成对应的手语动作序列?[4]?[5]。AI 手语分词快编算法主要以mBART预训练模型为基础,进一步采用了新颖的对比学习思想增加正负样本,提高翻译质量。翻译指标BLEU值可达0.35以上,AI手语分词快编算法中词汇边界划分的平均准确率可达98.02%以上。
mBART预训练模型是通过对多种语言的完整文本进行降噪来预训练一个完整的seq2seq模型,其在低资源的句子级机器翻译任务中取得了一致的性能提升,甚至可以提高预训练模型中不存在语言的性能。鉴于此,我们采用mBART预训练模型进行微调。
传统的对比学习框架使用同一批次非目标序列作为负样例进行训练是次优的,因为使用预训练语言模型时,传统的负样例在向量空间中往往从一开始就与正样例距离甚远。为了提高模型的泛化能力,我们采用了一种新颖的正负样本生成的对比学习方法,以区分正确的输出和错误输出。即通过向输入序列添加小扰动以最小化条件似然生成负例;通过添加大扰动迫使模型最大化条件似然来生成正例。
根据以上翻译算法得到手语词序列,进一步将分词后序列中的每一个手语词通过手语词-动作映射库,找到相对应的手语动作,最终得到手语词ID序列。
(3) 跨模态拟人生成算法
针对不同模态信息源标准不统一以及高逼真拟人生成难问题,研究跨模态拟人生成算法。将手语词ID序列作为输入,生成对应的拟人的动作-表情-手势,并对手语词序列到手势序列的映射关系进行建模,不仅能够保证生成结果的语义完整性,同时相邻手势动作之间也达到了自然平滑的过渡,从而生成高自然度的手语手势。建立的词汇到手语动作、表情及手势的映射,准确率为于98.88%;生成数字人动作、手势和表情的速度每500词为17.45s。
手势动作和手语词之间具有非常强的相关性,每一个手语词都对应了一段固定的手势动作,这个手势动作是由多模态动作捕捉数据采集获得。为了快速处理直接采集到的原始手语动作数据,我们实现了一个原始词级别数据的对齐及过滤算法。该算法基于动捕数据中的肘关节位置进行判断,可以自动对齐每段动捕数据,自动过滤每一段动捕数据开始的准备动作和结尾的静息动作,该算法能够大幅减少手语动捕数据预处理中需要的人工干预。
每个手语词的固定手势动作都具有特定的语义,故生成算法需要保证生成结果的语义完整性。同时,相邻手势动作之间也需要自然平滑的过渡。所以,高自然度的手势生成算法必须解决长时手势动作的语义完整性和短时相邻手势动作的连贯性两个问题。因此我们采用生成对抗网络思想?[4]?[5]进行手语视频合成,此算法能够兼顾短时相邻手势动作的连贯性和长时手势动作的语义完整性和一致性,生成高自然度的手语手势。
(4) 音字人实时同步对齐技术
为了保证良好的用户体验,还需要对解说、手语、字幕进行时间对齐输出。采用全局时间轴对齐技术,在字幕到手语转换的同时,将对应字幕的时间戳写入手语流扩展信息中,为手语流增加全局统一时间依据,根据字幕、手语、视频流显示时间戳(PTS)信息,实现音频解说、中英双语字幕、及数智手语主播的“音字人”三位一体实时同步呈现。
但是,在实际应用过程中,由于手语表达的速度跟不上语言表达数据了, 我们采用语义蒸馏、倍速播放等技术优化。在不丢失关键语义基础上,使得解说与手语的速度匹配度提升,但这样仍带来一个新问题,手语的整体表达延时更大,通过我们的大量测试调试,最终选择了一个折中的方式。首先,在手语视频和源流视频合成的时候,通过延时器,让赛事源流整体延时8秒;其次,字幕与手语同步方面,在长时间无有效字幕情况下,通过在字幕与手语侧加入心跳及空白帧,保持手语侧工作状态与时间轴的同步。
近年来,随着数字人技术在各场景开始应用,技术得以迅速发展。然而如果想实现全面落地,依然道阻且长。
首先,在技术上有三大难点。第一,由于手语数据稀缺,句法复杂,且手语属于一种视觉语言,表达更为丰富形象,手语翻译的精准度存在着巨大挑战。例如,往那儿看”-“手指向那个方向,且眼睛往那个方向看”,属于连贯动作并非用词代替。因此,如何让AI能够理解并感知到肢体语言是未来发展的方向之一。其次是驱动问题。评价数字人包含多个维度,其中表情、唇形、手势、肢体等多个维度自由组合,会表达出不同的意思。如何同一时间对齐多个维度且准确表达含义也是难题之一。第三是视频流的对齐问题。在直播中,输入的文本流是以句传递的,因此会有不能完全同步对齐的问题。未来对自然语言同声传译的研究或许是新的解决方案。
其次是产品和市场层面的应用受限。目前手语数字人技术的应用场景更多集中在电视娱乐、策展设计以及网络直播等领域。作为一种新型的产品,手语数字人也需要走出现有的场景,实现更多的内容价值。然而,由于较高的技术门槛以及制作成本,市场层面的反馈相对较慢。医疗、教育、养老等公共服务领域的应用也相对薄弱。这既是挑战,也是机遇。
最后是伦理层面。数字人技术逐渐显现其商业价值,但其形象IP、品牌IP、以及故事IP尚处于空白阶段,存在着版权纠纷等风险。此外,它的快速发展也对伦理秩序提出了更高的挑战。这都是当前大家需要探讨的部分。
由于与产业的不断结合,手语数字人变得越来越“有帮助”。华同学的研发团队智谱AI同时也研发了一系列智慧手语系列产品,涵盖手语播报、手语翻译以及手语词典三种应用,满足手语信息播报、实时翻译交流、手语学习等多个场景的需求。
AI手语播报:华同学可以为新闻媒体提供全流程、智能化的数字人手语播报视频生成服务,能够实现在电视台和网络平台上的数字人新闻手语播报,可应用在新闻播报、赛事解说、天气预报等场景。
AI手语翻译:华同学能够提供云服务和私有化部署两种方式,可实现输入文本或语音,实时输出手语视频。服务场景可以拓展至机场、火车站、银行、医院、政务大厅等各类公共服务场景,科技馆、展览馆等手语智能问答场景,以及大型会展活动现场。
而未来,手语数字人也将在更多地场景帮助有需要的人,包括在线教育、医疗健康、技术咨询等。这是技术的发展,也是技术的温度。只需要一个桥梁,技术红利便将源源不断地走向那些需要它们的人群。希望手语数字人可以实现更纯熟的技术、更广泛的应用以及多层次的开放,为残障人士平等参与社会生活创造无障碍环境,切实提高大家的社会参与感和生活幸福指数。
参考
文章来源:公众号【智谱】
本周上新!
扫码观看!
多家技术企业招聘来啦!
扫描了解详情~
关于我“门”
▼