FBEC2023未来商业生态链接大会暨第八届金陀螺奖于2023年12月8日在深圳福田大中华喜来登酒店6楼盛大召开,本次大会由广东省游戏产业协会、深圳市互联网文化市场协会指导,陀螺科技主办,中国光谷、游戏陀螺、VR陀螺、陀螺财经、陀螺电竞联合主办。
大会以“合力共生·韧者行远”为大会主题,以具有行业前瞻洞察的“航行者”为视角,破冰之旅为主线,关注AI、元宇宙、XR、游戏、电竞、数字经济等科技与互联网前沿领域,全方位呈现科技前沿成果,聚焦时代与商业热点议题,探讨新科技、新商业、新模式的未来价值,与真正的勇者共赴剧变革新下的凛冬破冰之旅!
大会现场设有Talking Box嘉宾对话间,元象 联合创始人 肖志立围绕“元象从元宇宙到发力AI大模型,2023年AI大模型现状”等话题,与陀螺主持人和现场的媒体朋友进行了对话交流。
以下为现场对话实录:
主持人:关于元象,之前了解更多是在虚拟元宇宙上的业务,但是今年发生一个明显变化,元象会更关注AI大模型,特别想请教一下为什么从元宇宙开始转向做AI这一块?
肖志立:这个问题蛮多外部的朋友也都问过我们,其实这里讲一下我们的逻辑。我觉得元象从2021年创立开始,我们就是奔着通用人工智能这样的目标去的,这个更偏向脑力,我们认为如果未来是一个虚拟世界,它具备跟人类同样的智能,这样的一种环境或者这样一种产品形态,它可能是我们所希望的。
其实这个想法是在所谓的全真互联网提出来之前我们就有了,人工智能形态的产品就是元宇宙。元宇宙我们理解为分为两种基础能力,一种是感知能力,可以理解仿真世界,这个世界给你呈现出来的视觉效果,听觉效果,是不是跟真实世界符合,第二是认知能力,偏大模型,就是虚拟世界里面你遇到的这种智能体,可能不是真人,可能是AI驱动的智能体,是不是能够通过图灵测试,跟它交流、互动起来跟人一样。所以在元象创立之初,不仅有3D技术团队,也有AI团队,做强化学习、语音和NLP等。
在大模型出来以前,AGI的常见路径是强化学习,到2022年底大模型这一系列技术出现之后,我们觉得这个技术可能要比原来强化学习的技术更有利于使得我们这个产品形态逼近我们理想的状态。所以,其实从我们最开始的认知,我们就并不觉得元宇宙只是一个虚拟仿真的产品形态,而是AI+3D。
主持人:2023拥抱AI是大部分企业的共同愿景,通常大家会有两种实现路径,一种接入API接口,另一种自己做,那元象为什么选择自己做这么艰难的路径?
肖志立:这个我们内部在做之前也有非常激烈的去讨论过,最后的结论就是我们必须做,而且我们也有能力去做。因为这里面其实所谓的通用人工智能也有它不同阶段的发展,比如我们现在也能看到某一些大厂的大模型,虽然都是通识大模型,但有些能力好,有些能力没有那么强。包括未来,如果要结合我们本身的虚拟场景,要呈现视觉或者听觉的认知能力的话,其实如果仅依赖API,非常受制约。而且这里面其实从环节落地,我们考虑所谓的投入产出,如果只是用API,在某些我们的内部应用场景里面,其实有点不划算,有些场景用较小规模的模型就可以落地,有些则需要更复杂的通识大模型,这里面真正阶段性的落地,而不只是说打比赛,这里面有很多需要权衡和选择的点。若在这个时候我们缺乏必要的资源和能力,便会变得非常被动。
主持人:相对海外的OpenAI还有国内百度的文心一言、星火大模型等,元象这边有什么差异点,核心的竞争优势是什么?
肖志立:这个分两方面看,一个跟国外的GPT比较,毫无疑问GPT现在一定在全球处于领先的位置,可能只有能够跟它与之匹敌的Google稍微追得上,其实在国内我们看到的大模型,自从 Llama开源之后,国内大模型都是基于这个架构做一个复现,只是这个复现的比例不一样,或者方法不一样,因为Llama只开源它的网络结构,没有开源训练语料和过程,所以现在国内大部分情况下,现在都还是在一个复现追赶的状态。
通过一些评测可能我们也听到一些声音说,我们在某些方面能够超越或者媲美GPT,但是其实正常使用角度来看,肯定不是这样的。而且我觉得我们国内这种声音其实会影响到我们对自己的一些认知。至于说元象本身,其实从底座训练的角度来看,通过更大的参数规模,更多的语料使得模型有更好的通识能力,涌现出更强大的人类语言的能力,这个角度上并没有太多的区别。它更大的区别在于说我基于我的底座,针对某些应用场景做一些微调,或者持续训练这一块。比如我们最近在测试我们的自研的泛娱乐方向的一些模型,就会看出来它跟GPT的一些表达会明显的不一样,因为GPT大家能感受到,更像一个“理科生”,它非常有逻辑,非常有条理,但是表述出来的东西其实很平淡无奇。但是在泛娱乐很多场景里面,比如说直播的欢迎弹幕,可能某一个“大哥”进来,我们要欢迎他,这个时候用GPT写弹幕一定索然无味,所以我们针对泛娱乐做了精调,虽然我们的参数规模远不如GPT,但是我们在这个领域的效果比它好不少。所以这个是未来元象会主打泛娱乐的部分,我们有经验,曾经做过并且有优势的领域,我们会在这个方向发力。
主持人:现在的AI大模型,大概有两种功能,一种是文生文,另一种是文生图,基于元象过往的经验,你们会做文生3D这样的内容能力吗?
肖志立:大模型生成什么不重要,反正大家都是在往多模态的方向去发展,包括GPT,我觉得GPT它更加让我惊艳的不是文生图,而是文生语音,文本生成的内容结合自然语言,再通过TTS(文本转语音)技术转化为口语,从而模拟真实对话,这里面的一些各种模态我觉得都是必然会存在的。回到刚才说的3D话题,其实我们也有在持续关注,就是3D类的生成技术,比如其实我们有看到像OpenAI的一些技术发布,我自己的判断是,可能3D模型的生成,它目前其实主要还是在研究阶段为主。进入到工业界的难度比较大,而且因为它3D信息相对文本、图片和视频是更高纬度的信息,而且它没有特别强的时序特性,因为3D可以从随机角度看,所以其实没有很强的时序特性,我估计它的技术的成熟期会比前面三种类型的内容都要晚一点。现在我们也在持续关注,也不是完全没有应用的机会,一会分享我会讲到,虽然我们现在不用这种生成技术做一个模型,但是我们会用这种生成技术构建一个场景,这其实是可以通过已有的一些大模型加一些工程化的技术,也能取得不错的效果,能够为我们的美术团队提升很好的效率。
主持人:2023年各家都在做大模型,各种通用大模型,垂类大模型,您如何看待各种大模型崛起的趋势?
肖志立:我觉得这是一种很好的趋势,通过这种充分市场化竞争,至少我认为我国能够拥有自主可控的属于操作系统级别的一些技术,这是非常重要的,而且它一定能够拉动我们国产的自研芯片的发展。所以我觉得从整个生态来看,这个并没有问题。下面可能需要关注的就是一些大模型安全方面的一些问题,虽然现在国家也有一些规范,比如生成式人工智能技术的备案等等的手段,但其实从我个人看来可能是不太够的,这里面可能需要有一些更完备的机制去持续监控或者保证安全性。比如说我们对于传统的互联网服务已经有像红军、蓝军对抗这种机制保证系统的安全,不容易被渗透,不容易被投毒,但是大模型这个领域挺空白的。相对来讲,我觉得这也是大模型创业其中一个领域的机会。
主持人:元象目前在C端与B端的客户配比如何,市场规划是怎样的?
肖志立:我们现在还是主要以B端客户为主,因为C端客户目前还是在逐步放开的阶段,在B端里面做验证,在C端里面发力这个是我们做大模型的一个路线。我们希望能够有一种超级APP是以大模型的能力作为驱动的。但是我觉得在到这个阶段之前,我们仍然需要在某些行业,比如我刚才提到的一些泛互联网行业里面积累一些经验。因为大模型这个技术跟传统的互联网技术有很大的不一样在于它是实验型技术,你没用过它,不知道它行还是不行,所以一定要落地之后才知道绝对有把握做好这个事情。所以,我觉得需要有一些时间的积累,才能去催生出刚才所描述的这种超级APP的概念,到这个时候,去TO C的话我觉得这样一个节奏才会比较稳妥。
主持人:元象今年发布了三个AI大模型,XVERSE-13B,XVERSE-7B,XVERSE-65B,为什么一年内连发三个大模型,这三个大模型具体有什么区别呢?
肖志立:正如我刚才所说,其实不应该用一种规格的大模型去应对所有的场景。比如7B、13B,它们的优势就是部署简单,推理成本低,7B一张家用显卡就能运转起来,所以个人用户去使用它,完成他的任务或者做一些实验都是挺方便的。包括13B其实我们开源之后的用户池里面,非常多的用户用来做内部的知识问答,就是很简单的,只要把我们模型部署好,对接上他内部整理好的知识库,通过我们自带的搜索增强技术,就可以在内部很轻松地用起来,也不需要购买很高价格的硬件。65B其实它的能力更好,比如在推理方面的数理逻辑能力会更强。但是你要使用它成本会更高,所以它目前看到更多是一些科研机构,他们需要做实验。这种场景下,就会要求我们要开放模型的参数,开放训练的参数,以便他在上面做增量训练或者做精调,每一种类型的模型,每一种规格的模型,它的受众群体不太一样。
主持人:再回到应用场景,元象之前也是做元宇宙内容的,您认为元象的大模型在元宇宙上面的应用场景和行业解决方案有哪些?
肖志立:我们本身做元宇宙的初衷就是我们不同的内容其实都是用AI技术辅助生成或者直接生成,所以这个大模型只是其中的一种生产方法。大模型目前来说主要还是聚焦在文案或者剧本类的生产,比如说,我们有一个景区导览的应用,我们会用大模型把和景区的知识库做关联,为游客提供服务,游客可以通过这种会话方式了解这个景区的需求,无论是景区的历史、典故、餐饮、游玩的推荐,都可以通过大模型去生成。
还有另外一种我们内部也使用的场景,比如我们要去制作一个分镜视频,它其实是有一个从你要表达的观点,到你要去用什么故事去表达这个观点,再变成一个拍摄工具可理解的脚本的过程。其实这种文案转化的过程,我们现在在内部也是用大模型实现的,比以前用人去写,这个效率就高非常多了。当然,我们其他的一些比如说3D类的场景生成,数字人相关的一些动作生成,包括他的一些脸部表情生成,背后都是各种各样的一系列AI技术,那个不完全是大模型能够覆盖的。