《最in数字人》第二期 | 超低延迟数字人!响应时间小于1秒!
首页 > 新闻及媒体 > 2023

《最in数字人》第二期 | 超低延迟数字人!响应时间小于1秒!

2023-11-28

一场谈话中,沉默的时间超过4秒,气氛就会变的尴尬

人与人的对话尚且如此,更别说数字人了

因此,交互速度成为我们衡量一个“全拟真人类个体”是否合格的重要技术指标之一

通常情况下,AI驱动的交互型数字人交互反应时长在7-8秒左右

有些“人工智障”甚至要达到20几秒

但是现在,这个难题被攻克了

我们的全拟真人类个体响应时间还不到1秒!

《最in数字人》第一期中,我们介绍了“全拟真人类个体”的概念及五大要素

本期内容小编将透露降低数字人交互延迟的奥秘!

降低交互延迟“四步曲”

20231123-162640.jpg

超低延迟“江凌枫”,共享诗词对答丝滑体验

这位侠气十足的古装帅哥,是我们的全拟真人类个体“江凌枫”

跟他的对话可以用“纵享丝滑”来形容,全程秒问秒答

主打一个绝不让任何人尴尬!

和数字人对话有几步?

回想一下我们平时回答别人问题的时候,大脑运转大概分为三步:

1.理解对方的问题

2.构思答案

3.说出答案

数字人的大脑和人类大脑的区别在于,人的大脑不是被设计出来的,而是经过浩瀚的历史长河,通过选择和演化而产生的。而数字人的大脑,是通过不断的学习训练变得越来越聪明,反应速度越来越快。

这看似简单的三个步骤对数字人来说,需要海量的学习数据,通过庞大的计算,调用一系列工具才能实现。而这个过程中,每个环节都可能是造成数字人反应延迟,让对话出现尴尬的沉默的原因。

总体来说,给江凌枫“大脑加速”,让他能够做到秒级响应,需要ASR语音识别、TTS语音合成、Audio2Face语音转表情、大模型部署四大方面的技术提效。

秒问秒答的江凌枫有何过人之处?

步骤一  ASR语音识别

ASR语音识别的主要任务就是把语言信号转换成文本,让数字人理解我们在说什么。在这个过程中,通过选择在本地部署ASR语音识别引擎的方式,能更好地应对网络延迟问题,从而加速整个识别过程,同时还保护了用户的语音数据隐私。

步骤二  TTS语音合成

TTS语音合成环节,则是将上一步生成的文本转换为语音的过程,让数字人把回答说给我们听。

值得一提的是,在这个环节,我们采用了流式传输的方式,通过将字符进行拆分重组,分段传回合成语音的方式再次提升了数字人的反应速度。

举个例子,如果是非流式传输,一句简单的“你好,我是江凌枫”需要等所有文字全部转成语音后才能统一输出,而采用了流式传输,数字人可以先将“你好”的语音输出,并同时进行“我是江凌枫”的语音合成并输出,巧妙地提升数字人回应速度。而且,这种将一句话分段输出形成消息队列的方式,可以在“你好”输出完成被“消费”掉以后,不再储存于整个队列中,解决大模型负担,实现语音合成输出环节的提速。

TTS语音合成这一步骤也是在本地完成的,在保护用户隐私的前提下,极大程度上减少了与远程服务器通信带来的延迟问题。

步骤三 Audio2Face语音转表情

人在说话的时候会有自然的表情变化,要让数字人实现更真实的交互自然也要具备这种能力。Audio2Face语音转表情过程,就是让数字人根据语义所表现内容做出面部肌肉运动、眨眼等相应表情变化的关键。

这个环节中,我们着重解决的是当多个数字人同时在任务中,由于实例分配不及时导致的延迟问题。在布置Audio2Face实例过程中,我们自主研发的A2FServer、负载均衡服务器两大神器起到了重要作用。

A2FServer不仅能够自主匹配实例,还能实现持续连接,避免暂停交互数字人与实例自动断开连接的情况发生。负载均衡服务器可以汇总数字人需要连接的端口、公网、内网、状态、是否被占用等信息,使数字人可随时查看实例状态并调用,降低表情转化的时间。

步骤四  大模型部署

大模型是数字人“中枢神经”,在实时交互的过程中承担了自然语言处理、对话生成、个性化交互、知识获取与问答、创造性文本生成、自动化文本生成、多轮对话处理等任务。

为了让大模型拥有更好的运行环境,提升整体效率,技术团队采用了高效的硬件和软件架构,利用先进的多维并行、异构内存管理和低延时推理解决方案,来加速训练和推理任务,最大程度地提高模型任务的效率。在有效降低AI大模型训练、微调和推理成本的同时,还优化了模型任务的性能表现,降低了对GPU的需求。通俗来说就是,大模型具备了完美的运行环境,灵活度自然也变得更好了。

除此之外,为了满足不同场景的应用需求,我们还选择了基于国内数据的预训练基座大模型,并对它进行垂直领域的训练和细致调整,不仅提升模型在特定任务中的准确性和适用性,还使其更符合专业需求。就好像当我们花大部分的时间深入研究、学习“金融”知识,当涉及该领域的内容时,能够更快速做出反应并给出精准答案。通过这样的训练,使数字人交互延迟的问题得到进一步解决。

总结

通过ARS语音识别、TTS语音合成、Audio2Face语音转表情、大模型部署四个方面的有效技术提升,最终为我们呈现出了“有记忆、有灵魂、多感情、多感知、超写实”的全拟真人类个体,使得数字人在交互过程中达到“秒级反应”,真正实现了超低延迟的互动体验。