文/VR陀螺 豌豆
AIGC(生成式人工智能)在全球范围内火了一把,据瑞银发布的一份研究报告显示,自ChatGPT推出两个月后,月活跃用户估计已达1亿,成为历史上增长最快的消费应用。
图源:Google Trends
创造了多项“神话”的AIGC,一度引发全民对“被替代”“被失业”的担忧,以快速成长的ChatGPT为代表的大模型自然也受到了各企业的关注,百度推出“文心一言”以来,大模型遍地开花,包括华为、阿里、京东、商汤等科技公司陆续推出了各自的大模型项目。
面对日益兴起的AIGC,国家互联网信息办公室就《生成式人工智能服务管理办法(征求意见稿)》(以下简称《征求意见稿》)向社会公开征求意见。整体来看,《征求意见稿》更多的是为规范我国人工智能、算法等行业的发展带来了更为细致且明确的规范指导。
AIGC有着能在各行各业赋能的强大功能,ChatGPT富有创造性的对话让人不禁遐想,在元宇宙时代,数字人将成为非常关键的角色,AIGC与数字人的结合又会对现实世界带来怎样的变化?
数字人走向各行各业,AI方向前景广阔
据IDC发布的《中国AI数字人市场现状与机会分析2022》报告中,预计到2026年中国AI数字人市场规模将达到102.4亿元人民币。可见AI数字人前景之广阔。
图源:IDC
数字人最初应用于影视、游戏行业,随后落地到各行各业,在应对更复杂的情况时,人们对数字人的信息处理能力、即时互动能力以及表达能力等需要有更高的要求。
陀螺研究院发布《2023年全球虚拟数字人产业报告》,其指出虚拟数字人的每个发展阶段与时代背景,技术有紧密联系,至今已迈入成长阶段,2023年Open AI推出的聊天机器人ChatGPT,与真人之间展开“灵活机智”对话,给由AI驱动的虚拟数字人描绘了极大创作及交互想象空间,伴随着ChatGPT成熟应用,虚拟数“智”人将走向大众生活。
图源:陀螺研究院
如今AI对传媒、影视、艺术、电商、娱乐、游戏等领域已经产生了重要的影响。数字人需要更智能、更人性化,有更真实的表现力。
AI赋能数“智”人,加速打破次元壁
如果好看的外形是数字人的“名片”,那么AI将成为数字人的“内核”。AI赋能数字人,未来能实现文本生成、音频生成、图像生成、视频生成、3D模型生成等功能,延伸到多模态交互功能,进而实现跨维度升级。
在外形方面,AI技术几乎渗入到数字人构建的各个基础环节:建模、生成、渲染、驱动、呈现、交互等方面,目前已经能呈现高保真的“人类”外形,也能做出流畅的肢体语言,如虚幻引擎的Metahuman和数年前三星演示的NEON数字人。
NEON数字人(图源:网络)
为了提高数字人的真实度,前段时间英伟达更新了其Omniverse的AI能力,并宣称将进一步引入对生成式AI的支持,用户可以仅凭文本信息自动生成高质量的材料。这一特性在Omniverse的声音驱动面部表情的工具Audio2Face上面也有体现。
高保真AI数字人(图源:英伟达)
为了演示Omniverse的新特性, Adobe Substance 3D艺术和开发团队使用Omniverse USD Composer(前称Create)合作创作了一个虚拟数字人形象。从视频可以看到,里面的虚拟角色视效逼真,并且皮肤呈现了真实的光线效果,而生成式AI,则提升了面部表情以及唇形同步的质量。相关阅读:《AI含量极高,GTC 2023有何新动态?》
在数字人制作方面,AI的接入让其生产成本进一步降低。
3月,腾讯发布全新的AI智能创作助手“腾讯智影”,智影数字人能实现“形象克隆”和“声音克隆”,创作者通过上传少量图片、视频和音频素材,就能得到自己的数字人分身和定制音色,进而快速生成自己的数字人播报视频。据介绍,腾讯智影还接入了数字人直播,可实现7×24小时不间断开播。
来源:腾讯智影
商汤科技在4月的技术交流日活动上发布了大模型体系“商汤日日新大模型”,其演示了2D数字人视频生成平台“如影SenseAvatar”,据称仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。它可应用为智能直播、教学、短视频等多种场景。
来源:商汤科技
在功能方面,结合ChatGPT的数字人不仅能完成更细致的指引、导航等信息提示服务工作,结合庞大的知识数据库,在B端如金融、汽车、工业等场景以及C端的影视、游戏、直播等领域将有更大的发展空间。
另外,OpenAI于今年3月发布了多模态预训练大模型GPT-4,ChatGPT的功能有了进一步提升:拥有识图功能;扩大文字输入限制至2.5万字;对话内容准确性提高;能生成有风格变化的创意文本等。多模态功能将使数字人的交互、决策建议更为真实有效。
人人都能实现“数字永生”
ChatGPT发布后,大量AI工具顺势而生,在一些AIGC的门户网站上甚至收录了海内外上千款AI应用。包括搜索引擎、文本写作、聊天机器人、语音合成、音乐制作、绘画生成、图像化身、图像合成、3D生成、视频技术、数字虚拟人、游戏应用、无代码创作等40个细分领域。几乎人人都能创建符合自己需求的数字人。
图源:AIGC中文工具导航截图
得益于这些AI工具强大的内容生成能力,现在网上也出现了不少“整活”尝试。
前阵子AI在B站上掀起一阵华语乐坛的“赛博文艺复兴”热潮,不少UP主利用音乐大模型软件,通过内容编码器提取源音频语音特征,进行AI翻唱制作,让歌手“唱”起来。与B站“鬼畜区”的人力调音不同,AI翻唱的效果非常真实自然,实际一听几乎难以分辨出是真人还是AI的声音,甚至还能看到视频中有不少弹幕讨论起AI唱功好不好……
图源:B站截图
另一方面,也有人在尝试证明AI“技术向善”。UP主吴伍六发布了一则名为“用AI工具生成我奶奶的虚拟数字人”的视频,他尝试用AI+照片、音频来生成已故奶奶的数字人,并与之进行虚拟对话。
前两年韩国 MBC 电视台在出品大型 VR 纪录片《见到你了》中,利用VR技术复活了7岁小女孩。
图源:网络
通过AI语音合成技术,提取小女孩生前影像音频。同时找来5个同龄的孩子录制上百条音频作为补充,最终复原成功小女孩的声音。再结合3D建模,动作捕捉等技术抓取三维坐标数据,初步还原小女孩外形。相关阅读:《VR 扫墓,数字永生,技术正在重新定义“生命”》
在现实中不可能做到的“复活”和“永生”,却能通过技术得以实现,这类视频引发了网友们对AI、生命、侵权、感情、寄托、人性和伦理道德的思考和讨论,展现不同人对数字生命的理解。
AI数字人在直播领域悄然生长
在元宇宙中数字人已经是有着较为成熟体系的领域,从技术到实际落地再到商业化,如今虚拟偶像、虚拟演唱会等垂直场景大行其道,而数字人直播已不是新鲜事。
图源:IDC
在数字人商业化的道路中,无论是主打陪伴的娱乐型数字人还是以电商带货为主的功能服务型数字人,AI数字人在直播中的应用率正逐渐提高,然而现阶段的数字人直播,绝大多数情况下,包括外形设计、配音、互动等都仍需要人类进行干预,AI只能实现一些简单的交互。
在海外已有基于ChatGPT+VRM(3D模型)+VOICEVOX(文本转语音软件)创建聊天型人工智能的案例。例如OshaberiAI,这是一款允许用户创建养成型角色并与之聊天的应用程序,通过设计对ChatGPT的提示(指令),为数字人设定各种个性和语气,与用户进行简单的聊天交互。
图源:推特
目前该应用已上线AppStore,此前该开发者也在AR+数字人导航方面做了一些尝试,推出了“ARCharaNavi”,用户在应用中设定好目的地之后,数字人会根据选择好的路线在屏幕中的路线前方带领用户前行。
而AI数字人的强大胜在可控性高,模式可复制,能7×24小时保持在线,在直播领域成了不少电商品牌的“新欢”。
中国互联网络信息中心日前发布的第51次《中国互联网络发展状况统计报告》显示,截至2022年12月,中国网民规模达10.67亿,短视频用户规模达10.12亿,短视频用户渗透率高达94.8%,而网络直播用户规模达7.51亿。
有了庞大的直播受众,投身于电商直播的AI数字人表现如何?成本低是品牌方选用数字人进行直播的一大因素,某品牌直播间售价和数字人服务定价,粗略计算后日均花费大约在600元左右,相比于聘请真人主播,能大幅减少支出成本。
目前在电商直播领域,AI数字人通常在夜间至凌晨直播,弥补真人主播休息期间的空缺,尽可能获取更多闲时流量。现阶段用户可以通过关键词触发与数字人关于商品的交互,要让AI数字人执行更细致的指令和互动还有一定难度。
图源:抖音网页版截图
而在短视频平台,已有不少AI数字人尝新开设全天无休的直播间,实际上这类重复相似对话内容的直播间热度并不高,如果有明星IP加入,则会带来更显著的引流效果。例如乐华七子的黄新淳,基于他本人的形象设计了数字人分身,结合AI算法来控制数字人的动作和表情,还能正常与粉丝进行互动。
AI数字人在视觉效果和语音上越发真实,也就意味着人们将更加难以辨别真人与“数字人”,且绝大部分人是第一次接触AIGC内容,为了避免更多的AI内容对观众造成误解,不少视频平台发布了相关平台规范。
抖音APP官方公众号于近期发布《抖音关于人工智能生成内容的平台规范暨行业倡议》一文,指出“各生成式人工智能技术的提供者,均应对生成内容进行显著标识,以便公众判断。同时使用统一的人工智能生成内容数据标准或元数据标准,便于其他内容平台进行识别。”
图源:抖音APP官方公众号
就连海外知名插画平台Fanbox的运营商PixivFANBOX,也宣布禁止上传和销售使用Midjourney 、Stable Diffusion等AI艺术工具生成的插图,将对发布由AI创作作品的账号采取措施,如发出警告、限制可见范围、封禁账号等。未来将会有更多平台自发加入规范AIGC内容的阵营中。
AI数字人在直播领域,尤其是电商板块的落地进程加快,其变现能力强、操作门槛低(不少平台推出无代码方案)、降本增效显著等优势迎合了品牌方对数字化电商直播的需求。同时,部分头部电商直播MCN也能凭借自身在IP运营管理、平台流量资源、品牌方资源的积累,尝试从真人直播转向数字人直播,提高闲时阶段的收益。现阶段的AI数字人仍有非常大的发展空间。
结语
在元宇宙盛行的时期,数字人还只是人们眼中的“流量明星”,背后又牵扯到高成本的动捕和中之人运营,普通人几乎难以企及。虽然现阶段的AI数字人仍然未达到能跟真人“抢饭碗”的能力,但成长迅速的AI正在加速数字人走向大众的进程,而ChatGPT则是AI数字人最佳的接入口之一,为数字人的人机交互功能带来更多落地应用机会。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
版权申明:本文为VR陀螺原创,任何第三方未经授权不得转载。如需转载请联系微信:vrtuoluo233 申请授权,并在转载时保留转载来源、作者以及原文链接信息,不得擅自更改内容,违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处,如涉及版权问题,请联系本网站协商处理。
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息