文/VR陀螺 万里
今年Connect大会上,扎克伯格抛出了一个有意思的话题:“让我特别感兴趣的一个领域是,如何将AI的进步与下一代计算平台相结合。”
伴随着因ChatGPT爆火而引发的新一轮热潮,AI开始加速与千行百业融合,如今年三月微软宣布将GPT接入Office办公套件,谷歌将其AI助手Bard集成到谷歌日历等应用全家桶中等。
同样,对于AR或者是其他可穿戴式设备而言,AI也成为了其不可或缺的卖点之一。本文将对目前AR眼镜上的主流AI功能进行盘点,一窥技术发展趋势。
以AI驱动的可穿戴式设备,图源:Humane
早在GPT爆火之前,VR、AR产品中已经出现了很多有关AI的用例,如结合了AI算法的手势识别、基于AI预测用户的全身追踪等。不过这些功能多停留在用户无法直接感知的隐性层面。现如今随着LLM、AIGC等技术的发展,AI进一步走到了台前。
以Meta最近发布的新一代智能眼镜产品Ray-Ban Meta为例,它与老款产品比较重要的差异点在于,产品正式实现了对Meta AI的支持。
Meta官网指出,Meta AI由Llama 2大模型驱动,并与微软Bing搜索引擎达成了合作,目前已经可以通过Instagram、WhatsApp等Meta社交平台进行访问。
今年Meta Connect期间,扎克伯格对于Meta AI进行了演示(基于其社交APP),Meta AI具备很强的上下文理解能力,可以快速响应用户的各种提问。此外,它还集成了Meta的AI图像生成工具Emu,可以基于用户的需求生成相应的图片。
图源:Meta
除应用于自家社交平台,Meta AI还搭载到了自家的硬件产品Ray-Ban Meta中。由于Ray-Ban Meta并没有配备屏幕,所以只能以语音的方式输出,这使得它并不能承担太多复杂的工作。基于发布会演示,Meta AI的作用主要体现在两方面:一是偏向于功能交互的场景,如通过语音命令拍摄照片,通过语音将图片视频分享到Messenger等;二是充当一个类似于ChatGPT式的AI助手的角色,用户可以与之进行闲聊、询问出行建议等。
除Meta AI外,扎克伯格透露明年将会为Ray-Ban Meta新增更多AI的能力,如用户在旅游时可以通过AI询问眼前建筑的具体信息;协助翻译外语广告牌上面的内容、询问水龙头的一些维修建议等。
Ray-Ban Meta AI功能的落地离不开新处理器骁龙AR1 Gen1的应用,据了解,该处理器可实现眼镜侧AI,这使得硬件厂商可以在眼镜中接入系列AI模型。高通官网指出,骁龙AR1 Gen1搭载了第三代Hexagon NPU和用于视觉分析的AR级引擎,可用于增强图像和音频质量、视觉搜索、实时翻译等。
近日,雷鸟创新官宣了其下一代AR眼镜新品雷鸟 X2 Lite,产品同样搭载骁龙AR1 Gen1,具备更强的AI能力也是产品的重要卖点之一,产品可实现实时翻译、智能出行建议等AI功能。
图源:Meta
除Ray-Ban Meta以及雷鸟X2 Lite,今年以来发布的大多数AR眼镜产品均配备了AI相关能力,比较典型的是致敬未知于今年7月发布的ARKnovv A1。致敬未知创始人吴德周曾表示,“AI和AR的结合一定是方向,我们希望能够深度结合AI,让AR眼镜真正能够成为更有效率、更好玩的工具。”
产品定位方面,ARKnovv A1与Ray-Ban Meta有较大不同,前者采用分体式设计,但是补充了双目Micro-OLED屏幕。此外,前者配备了单目摄像头,但并不聚焦于拍照摄影,而是用于实现SLAM等相关玩法。
在AI功能方面,ARKnovv A1分为了三大块:基于AI大模型驱动的语音助手、借助摄像头以及CV实现的现实大爆炸(可识别建筑物、植物、餐厅等)以及基于开源绘图大模型Stable Diffution打造的AI图生图功能。
图源:致敬未知
近日,李未可CEO茹忆公布了其下一代AR眼镜李未可Meta Lens S3。茹忆认为,当下AI在交互计算平台领域的重要性越来越突出,AI交互能力将成为AR眼镜的核心能力。
产品方面,李未可团队正在将AI大模型深度整合到AR眼镜中,AI模型采用“重云轻端 云端一体”的搭建模式,云端构建以认知、推理、服务、任务等模型为基础的AI大脑,并实时响应AR终端的用户需求。
可以发现,如何结合AI为用户提供更加高频更加有趣的玩法已经变成了如今AR/智能眼镜产品所探讨的重要议题。不过由于产品多聚焦于大众消费市场,使得功能也相对趋同,当然也有厂商试图从中挖掘更加垂直化的用例。
如海外企业Envision专门面向视障群体开发了一款眼镜产品Envision Glasses。该产品基于Google Glass Enterprise 2开发而来,产品搭载骁龙XR1,配备800万像素摄像头。由于产品面向视障群体,它更依赖于AI所支撑的环境感知以及理解能力,而屏幕或者AR反倒成为了无关紧要的功能。
以下是Envision Glasses所对外展示的一系列用例:
可以扫描书籍、信件等手写或印刷文本信息并通过语音的方式向用户播报,它可识别超过60种语言;
借助摄像头进行第一视角的通话;
从一堆白色的衣服中挑出红色的袜子,判断室内的灯是否亮着;
识别亲人朋友等,提醒用户打招呼。
图源:Envision
值得一提的是,Envision的前身是一家OCR和物体识别应用开发商,2017年,企业上线《Envision AI》APP,该APP同样瞄准了视障群体。Envision Glasses需要搭配其手机APP使用,官网指出眼镜在正常情况下可提供约5-6小时的使用时长。
图源:Envision
扎克伯格曾表示眼镜将会是AI最佳的硬件载体之一,因为眼镜能够见你所见、听你所听,很好洞悉用户的一切。不过,这并不只是当前的唯一解。
今年9月底,The Information爆料称,OpenAI CEO Sam Altman、软银集团CEO孙正义与前苹果首席设计师Jony Ive进行了洽谈,三方或将成立一家专注于研发新一代AI硬件的新公司,不过对于AI时代下的新硬件究竟会是什么样子,目前他们仍没有达成共识。
10月中旬的WSJ公开采访中,Altman曾表示AI 时代下计算机可以独立思考,所以什么样的硬件都有可能,它或许是新一代手机、或许是智能音箱、甚至有可能是某种AI驱动的机器人。不过外界猜测称,关于前沿AI硬件最佳实践或许正是Altman曾多次投资的科技企业Humane。
图源:网络
Humane团队打造了一款AI投影设备AI Pin,设备体积小巧,可像一枚胸针一样挂于胸前。该产品集成了无唤醒词的AI助手,除此之外,AI Pin内置了一个投影模组,它可将一些来电联系人等简单的信息投射于手掌中。
据了解,Ai Pin将会搭载专用系统,甚至有可能会结合OpenAI的GPT-4,基于过往的一些案例,用户可以向设备发送拨号指令、询问就餐建议、旅行安排、检测食物卡路里等。此外,Ai Pin的AI助手还将具备一定的上下文联系能力。
其他方面,Ai Pin售价可能会高达1000美元,配备高通骁龙芯片,性能可以比肩智能手机。此前该产品已经在9月底的巴黎时装秀上有所亮相,并即将于11月9日召开新品发布会。更多信息可查看VR陀螺过往文章《iPhone核心团队成员创业,融资2.3亿美元,要做“另类”下一代计算平台》。
图源:Humane
目前AR眼镜/智能穿戴仍处于探索期,而AI如何与新一代计算终端所结合也同样如此。基于前面的一些硬件终端其实也不难发现,各家厂商对于AI的理解以及侧重点会有一定差异,但是共识是AI将会在新一代计算设备革命中发挥重要用途。
对此,茹忆则提出了一个简单明了的观点,如果AR眼镜是iPhone,那么AI就是iOS,即AI将成为硬件驱动的核心。
从当前来看,眼镜产品上的AI用例仍多集中于基于LLM的语音助手、简单的识图功能等,目前体验仍相对单薄。此外,由于隐私以及设备续航所限,设备的AI能力很多时候只能处于被动触发状态,如只有按下按钮或者呼出特定语音指令才能有所响应(这有点类似于搜索与信息推送的差异)。这种单项互动在一定程度上阻碍了AI功能的黏性。
此外,根据海外平台SparkToro调查数据,聊天机器人模型ChatGPT的用户会话中,编程协助以及教育用途最为广泛,分别达到了29.1%和11.9%,而聊天互动等私人用途占比反而并不算高。未来,如何实现大语言模型与眼镜终端更为有机的结合也是一个值得持续思考的问题。
图源:SparkToro
其他方面,AR眼镜的算力薄弱,目前仍以云端侧AI为主。高通今年发布《混合AI是AI的未来》白皮书里面提到,云端和终端协同处理的混合AI是AI的未来,这样才能高效推动AI规模化落地,并发挥其最大潜能。随着端侧AI能力的增强,未来设备可以构建更加个性化以及安全的AI助手,可以在离线状态下工作,并且响应速度也会更快。
而AGI(通用人工智能)是AI的下一个发展阶段,AGI具备更强的感知、推理与学习能力,未来当AGI引入AR眼镜之后,它的能力将得到更为广泛的提升。彼时,AR眼镜将会成为一个更加无感以及智能的设备。
高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar采访中曾提到,在未来5年内,AI将会成为一个更加智能的个人助理,比如当告知设备会议要迟到了,它将能自动给相关成员发送消息。
图源:高通
关于这一点,或许我们能在即将发布的Ai Pin上面看到相关解法。Humane的一份专利文件中指出设备可以结合用户的体温、心率等数据来估算用户的感情状态以及当前环境的重要性,然后会选择是否激活麦克风摄像头等。它有点类似于iPhone的相册“回忆”功能,但是设备会替用户完成很多隐形的决策工作。
而美国未来学家Devin Liddell则认为,在AI技术的加持下,AR眼镜将能获得远超普通人类的超级感官,比如眼镜可以洞悉用户的真实情绪、是否在撒谎等。
比尔盖茨曾提到,人工智能革命重要程度不亚于手机和互联网的诞生,这是其一生中唯二的革命性技术进步。而未来AR眼镜/智能眼镜在AI的加持之下,也将迸发出我们难以想象得到的创作力以及生命力。
参考资料:
https://mp.weixin.qq.com/s/npZduUT7FYhlqAdp3SsAiQ
https://mp.weixin.qq.com/s/XMzMACpCwjanMpyba73QVQ
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息