2023-02-22
21世纪经济报道 | 对话A股成长力
2023年开年以来,作为史上用户增长速度最快的消费级应用,ChatGPT引发全球市场关注。日前,天娱数科旗下元境科技CEO王智武,在接受21世纪经济报道“对话A股成长力”专题专访中,阐明了天娱数科在接入ChatGPT后进行的尝试,以及在AIGC时代如何抓住新机遇等问题,以下为专访实录。
报道全文
2023年开年以来,作为史上用户增长速度最快的消费级应用,ChatGPT引发全球市场的狂欢。在业内看来,ChatGPT或将是人工智能里程碑,更是分水岭,意味着AI技术发展到临界点。
资本市场上的ChatGPT概念股也受到广泛关注,天娱数科(002354.SZ)便是其中之一。
记者从天娱数科方面了解到,其子公司元境科技已基于MetaSurfing-元享智能云平台率先接入ChatGPT模型,并成为百度文心一言首批先行体验官,后续也将全面体验并接入文心一言的能力。未来公司将更加关注虚拟人与ChatGPT等模型的整合应用,将智能对话技术成果应用在元宇宙智能生产领域,快速扩展到不同行业、不同场景。
ChatGPT、百度文心一言等大模型的出现能够解决目前虚拟人存在的哪些客观问题?天娱数科接入ChatGPT的技术逻辑是怎样的?在接入过程中积累了哪些独特的经验?带着一系列问题,近日,21世纪经济报道记者专访了天娱数科旗下元境科技CEO王智武。
ChatGPT为虚拟人注入“灵魂”
《21世纪》:公司虚拟人接入ChatGPT的初衷是什么?
王智武:长期以来,我们一直在元宇宙领域探索。我认为,虚拟数字人未来主要会有两种形态,一种是身份型虚拟数字人,像天妤这种虚拟偶像;还有一种是服务型虚拟数字人,大多以AI驱动,涉及AI交互、语音问答、图形图像驱动等等。
我们当时接入ChatGPT、百度文心一言等大模型的初衷,就是希望元境科技不仅仅只是一家做身份型虚拟人的公司,我们也想拓展更多服务型虚拟数字人,通过整合自研能力与领先的智能对话技术成果,应用在元宇宙智能生产领域,不断提升虚拟数字人智能驱动能力与实时交互能力。
《21世纪》:目前接入ChatGPT的接入逻辑、付费模式是怎样的?
王智武:ChatGPT是一个大规模预训练语言模型,公司依托“MetaSurfing-元享智能云平台”,通过调用ChatGPT接口,并与自身人脸建模、形象驱动、语音合成、语音识别、语义理解、图像处理等多模态智能驱动算法进行紧密的智能化结合,从而升级虚拟数字人语言理解、多轮回复等“生成式交互”能力,并以应用场景为导向,在ChatGPT通用大模型基础上,进行调优,针对虚拟主播、跨境电商直播带货等垂直场景进行匹配,实现产品化解决方案,致力于用AIGC推动元宇宙进入智能时代。
我们现在是用的按字符收费的模式,比如750个字左右是0.02美分,就我们目前情况而言,其实比人工成本要低很多,更适用于我们现阶段的情况。
《21世纪》:公司接入ChatGPT模型,在技术方面做了哪些攻关尝试?
王智武:虚拟人多模态技术驱动其实有很多需要打通的技术点。虚拟人是涵盖形象、语音、表情、动作等等的多模态技术形态,涉及各种各样的技术融合。因此,怎样打通各种模态之间的障碍,是我们现在要解决的问题。
我们接入了ChatGPT的文本技术到虚拟人身上,以文本驱动,使它可以跟我们互动问答。众所周知,ChatGPT本身只具备文本编译、对话问答的能力,要应用在虚拟人的身上的话,我们希望用它的文本先转成语音,然后再去驱动虚拟人的嘴型、表情、神态、情绪等等。
整体来看,每个环节都有我们很多想去打通的一些技术点。涉及到跟我们自己的产品交互,我们做了很多尝试,试图让虚拟人更加智能有趣,也一直在研究多模态的方向。这一部分,我们未来还会尝试在短视频制作、新闻播报等方面应用。
《21世纪》:你认为ChatGPT的出现能够解决目前虚拟人存在的哪些客观问题?
王智武:一两年前大家聊到人工智能,还会戏称其为人工智障,觉得很多NLP的问答对话很傻。当然,现阶段的很多NLP技术或者其他小模型,整个问答系统的效果还是不好,尤其在ChatGPT这种大模型面前。
比较来看,ChatGPT的智能化会更高一些。它是一个非常聪明的智能体,同时也非常“圆滑”,未来可能它的效率、准确性、智能化会更高一些。
抢滩AIGC时代新机遇
《21世纪》:公司接入ChatGPT后,在实际应用方面积累了哪些经验?
王智武:其实在国内的虚拟人应用市场上,ChatGPT目前大多还在技术调试和验证阶段,而且感觉应该离泛娱乐方向更近一些。如果直接把它大规模应用在直播或者其它垂类方向,目前还是不太可行的。
因此,我们接入ChatGPT,首先要经过ChatGPT预训练大模型,它提前帮我们训练好了一部分,其他的部分要自己训练和数据填入。
在ChatGPT的基础之上,针对垂类领域,我们可以把想问的一些问题让它去学习,还可以设置一些相关标签和引导词,只要点击相关标签,它就会顺着标签思路往下回答,尽量做到不让虚拟人“胡说八道”。
虽然它是一个大模型,但是我更希望在这个基础之上,把它做成特定版的小模型,我更喜欢这样的一个应用场景,因为大模型太广泛了。我们会针对某些垂类领域,推出自己的解决方案,在我们的服务器里去搭建各种小模型,而且我也相信这也是很多公司的机会。
另外,如果把ChatGPT当做一个工具,用它去训练我们的NLP,我觉得也会非常好用。因为在小模型领域,国内的一些语料库相对少,ChatGPT更全一些,所以我希望未来有可能让大模型去帮我们训练垂类方面的一些小模型。
接下来,我们会把它应用在一些训练上。比如,在直播间里面,虚拟人可以更加多元化、多角度地跟弹幕之间的用户问答,介绍商品等。
《21世纪》:现阶段元境科技虚拟人的应用场景主要包括哪些?
王智武:我们现阶段已经在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用,并正在形成产品化解决方案。后续可能还会应用在教育、金融、房地产、文旅、影视解说、广告创意、游戏、快消、汽车等方向。
《21世纪》:在ChatGPT应用拓展方面,你还有哪些试想?
王智武:首先我能想到的是游戏。游戏前期涉及很多概念设计,包括一些关卡设计、前期的创意策划等等,我希望用ChatGPT辅助我去做游戏前期的脚本策划,顺着它的一些独特的思路往下深挖;把ChatGPT技术接到游戏里面去,比如让NPC与玩家交互问答,那也会很有意思;ChatGPT的底层支撑技术是AIGC,AIGC技术在整个绘画领域,也可以帮我们去做一些游戏前期的概念图创意设定,游戏宣传海报,游戏背景图等。
其次,ChatGPT在智能客服、辅助教育、文旅导游等方向也会有很大的用武之地。接入ChatGPT后,这些行业未来的想象空间会非常大,接下来就看怎样去落地实现,或许需要去做一些更加智能的定制化产品,这也是我们需要把握的机会。
《21世纪》:如何评价当前AIGC技术的有关重大突破?
王智武:现阶段,我看到的AIGC的突破性应用,有文本模态的ChatGPT,有绘画的Midjourney/DALL.E2,还有图形图像等,都在迅速发展。另外语音方面突破也不错,可以很好地训练和复刻真人声音,预计很快会有一个爆发阶段。
《21世纪》:你认为AIGC技术未来的行业应用有哪些?
王智武:现在生成式AI已经发展到一定高度,我认为也是接下来的趋势。AIGC的应用场景不断在拓展,包括文本内容生成,图片生成,视频生成,广告内容生成,个性化客服等,而且AIGC技术也会与其他技术结合,如虚拟现实,增强现实等,也会给游戏,新闻,广告等行业带来革新机会,不断提高内容质量,创造更好的用户体验。
来源:21世纪经济报道
作者:雷晨
编辑:巫燕玲