真实度超越真人!网易互娱AI Lab提出语音合成对话动作新方法
【资料图】
近日,网易互娱AI Lab创新性地提出了一种语音合成对话动作的新方法。该方案不仅在GENEA 2022大赛中斩获第一,所合成的动作表现出远超于其他参赛选手、甚至超越真人的真实自然度,同时技术论文也被国际计算机人际交互会议ACM ICMI 2022正式收录。
GENEA 2022是语音合成对话动作领域的权威赛事,汇聚了全球来自工业界和学术界的顶尖队伍,角逐非常激烈。而ACM ICMI是人机交互领域的重要国际会议,1996年举行首次会议,迄今已经持续24届。大会重点关注多模态人机交互、界面设计和系统开发,录取论文在人机交互领域研究中也具有首屈一指的影响力。本次大赛夺冠和入选ACM ICMI代表了网易互娱AI Lab在计算机视觉领域的领先技术实力和来自国际的认可。
语音合成对话动作技术能够根据输入语音和对应的文本信息,自动生成上半身甚至全身动作,并需要保证合成动作的真实与自然性,也要保证动作和语音之间的匹配度。目前业界常用的方法为StyleGestures,但其合成的动作距离真实的动捕数据仍有明显差距,存在动作机械感较重和效果随机性较大的问题。在当前背景下,网易互娱AI Lab提出了一种AI合成对话动作的新方法,该方案在动作合成的真实自然度指标上远超GENEA大赛的其他选手,甚至小幅超过了真实动作;在动作与语音匹配度指标上的表现也领先于其他队伍。
( FSA :互娱AI Lab 全身 ,FNA: 真实全身;USQ: 互娱AI Lab 半身,UNA: 真实半身)
在方案中,网易互娱AI Lab的团队首先构建了一个高质量的离线动作库,再通过语音节奏计算、手势风格预测和动作搜索匹配,以及动作融合的方式,构建了一个基于动作图优化的语音驱动全身动作的模型。该模型在合成动作时不仅能够考虑到语音的节奏,还可以支持不同的风格,例如考虑到男性和女性不同的说话习惯和姿态;同时,该模型还允许在不同时刻替换或指定待定的动作,并确保替换后的动作过渡自然。因此,网易互娱AI Lab所提出的语音合成对话动作新方法拥有更真实自然、稳定可控的表现,更有可能满足实际生产的需求。
(左:男性动作,右:女性动作)
逼真自然的人物动作合成有望改变动画、替身和交际智能体领域。近年来,语音合成口型的相关研究已非常普遍,但基于语音合成肢体动作的技术仍缺少统一评估标准,鲜有落地。网易互娱AI Lab本次提出的语音合成对话动作技术正是在该领域的一次成功探索。不仅是生成对话动作,团队在基于语音生成口型、表情和舞蹈动画方面,已经研发出了能够实际应用于生产环境的AI技术,并应用于《一梦江湖》、《梦幻西游三维版》等游戏中,相比传统流程中的动捕或手K大幅降低了制作成本,压缩了生产周期。未来,网易互娱AI Lab也将不断拓展AI自动生成内容的边界,打造更可信的虚拟角色,重塑智能交互体验,让我们距离元宇宙的畅想更进一步。
关键词: