《最in数字人》第二期 | 超低延迟数字人！响应时间小于1秒！

2023-11-28

一场谈话中，沉默的时间超过4秒，气氛就会变的尴尬

人与人的对话尚且如此，更别说数字人了

因此，交互速度成为我们衡量一个“全拟真人类个体”是否合格的重要技术指标之一

通常情况下，AI驱动的交互型数字人交互反应时长在7-8秒左右

有些“人工智障”甚至要达到20几秒

但是现在，这个难题被攻克了

我们的全拟真人类个体响应时间还不到1秒！

《最in数字人》第一期中，我们介绍了“全拟真人类个体”的概念及五大要素

本期内容小编将透露降低数字人交互延迟的奥秘！

降低交互延迟“四步曲”

超低延迟“江凌枫”，共享诗词对答丝滑体验

这位侠气十足的古装帅哥，是我们的全拟真人类个体“江凌枫”

跟他的对话可以用“纵享丝滑”来形容，全程秒问秒答

主打一个绝不让任何人尴尬！

和数字人对话有几步？

回想一下我们平时回答别人问题的时候，大脑运转大概分为三步：

1.理解对方的问题

2.构思答案

3.说出答案

数字人的大脑和人类大脑的区别在于，人的大脑不是被设计出来的，而是经过浩瀚的历史长河，通过选择和演化而产生的。而数字人的大脑，是通过不断的学习训练变得越来越聪明，反应速度越来越快。

这看似简单的三个步骤对数字人来说，需要海量的学习数据，通过庞大的计算，调用一系列工具才能实现。而这个过程中，每个环节都可能是造成数字人反应延迟，让对话出现尴尬的沉默的原因。

总体来说，给江凌枫“大脑加速”，让他能够做到秒级响应，需要ASR语音识别、TTS语音合成、Audio2Face语音转表情、大模型部署四大方面的技术提效。

秒问秒答的江凌枫有何过人之处？

步骤一 ASR语音识别

ASR语音识别的主要任务就是把语言信号转换成文本，让数字人理解我们在说什么。在这个过程中，通过选择在本地部署ASR语音识别引擎的方式，能更好地应对网络延迟问题，从而加速整个识别过程，同时还保护了用户的语音数据隐私。

步骤二 TTS语音合成

TTS语音合成环节，则是将上一步生成的文本转换为语音的过程，让数字人把回答说给我们听。

值得一提的是，在这个环节，我们采用了流式传输的方式，通过将字符进行拆分重组，分段传回合成语音的方式再次提升了数字人的反应速度。

举个例子，如果是非流式传输，一句简单的“你好，我是江凌枫”需要等所有文字全部转成语音后才能统一输出，而采用了流式传输，数字人可以先将“你好”的语音输出，并同时进行“我是江凌枫”的语音合成并输出，巧妙地提升数字人回应速度。而且，这种将一句话分段输出形成消息队列的方式，可以在“你好”输出完成被“消费”掉以后，不再储存于整个队列中，解决大模型负担，实现语音合成输出环节的提速。

TTS语音合成这一步骤也是在本地完成的，在保护用户隐私的前提下，极大程度上减少了与远程服务器通信带来的延迟问题。

步骤三 Audio2Face语音转表情

人在说话的时候会有自然的表情变化，要让数字人实现更真实的交互自然也要具备这种能力。Audio2Face语音转表情过程，就是让数字人根据语义所表现内容做出面部肌肉运动、眨眼等相应表情变化的关键。

这个环节中，我们着重解决的是当多个数字人同时在任务中，由于实例分配不及时导致的延迟问题。在布置Audio2Face实例过程中，我们自主研发的A2FServer、负载均衡服务器两大神器起到了重要作用。

A2FServer不仅能够自主匹配实例，还能实现持续连接，避免暂停交互数字人与实例自动断开连接的情况发生。负载均衡服务器可以汇总数字人需要连接的端口、公网、内网、状态、是否被占用等信息，使数字人可随时查看实例状态并调用，降低表情转化的时间。

步骤四大模型部署

大模型是数字人“中枢神经”，在实时交互的过程中承担了自然语言处理、对话生成、个性化交互、知识获取与问答、创造性文本生成、自动化文本生成、多轮对话处理等任务。

为了让大模型拥有更好的运行环境，提升整体效率，技术团队采用了高效的硬件和软件架构，利用先进的多维并行、异构内存管理和低延时推理解决方案，来加速训练和推理任务，最大程度地提高模型任务的效率。在有效降低AI大模型训练、微调和推理成本的同时，还优化了模型任务的性能表现，降低了对GPU的需求。通俗来说就是，大模型具备了完美的运行环境，灵活度自然也变得更好了。

除此之外，为了满足不同场景的应用需求，我们还选择了基于国内数据的预训练基座大模型，并对它进行垂直领域的训练和细致调整，不仅提升模型在特定任务中的准确性和适用性，还使其更符合专业需求。就好像当我们花大部分的时间深入研究、学习“金融”知识，当涉及该领域的内容时，能够更快速做出反应并给出精准答案。通过这样的训练，使数字人交互延迟的问题得到进一步解决。

总结

通过ARS语音识别、TTS语音合成、Audio2Face语音转表情、大模型部署四个方面的有效技术提升，最终为我们呈现出了“有记忆、有灵魂、多感情、多感知、超写实”的全拟真人类个体，使得数字人在交互过程中达到“秒级反应”，真正实现了超低延迟的互动体验。