深度报告

推广

最新资讯

AI PC、AI手机、AI XR，端侧AI落地进行时

发布时间：2024-05-28 14:19 | 标签： XR AI PC 端侧AI

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

文/VR陀螺万里

从ChatGPT开始引爆大语言模型，然后到后来国内掀起百模大战，现如今，AI之火愈演愈烈，目前市场已经步入关于AI大模型的应用落地阶段。在这个过程中，端侧AI的发展始终是难以忽视的一环。

所谓端侧AI，指的是不依赖于云服务器，能够直接在设备本地所运行的AI体验。目前GPT-4、Llama 2等主流的大语言模型仍需要调用云端接口算力，因而其在应用过程中始终存在一定局限性，在算力、续航以及模型体积掣肘的当前，端侧AI应该如何发展落地？

图源：网络

可靠、强隐私，是端侧AI的核心优势

去年，高通曾在一份报告中透露了有关端侧AI的四大关键优势，其中包括：降低成本、可靠性、隐私安全以及个性化。

展开来看，关于成本问题，由于端侧AI完全基于本地运行，无需额外调用云端API，因而边际使用成本无限趋近于电费。早些时候，面壁智能CEO李大海曾做了一个测算：用一台搭配骁龙855芯片的手机在本地端跑大模型，按照运行5年计算，每秒7.5tokens，那么170万tokens的推理成本仅需人民币1元，成本仅为Mistral-Medium的百分之一。

（Ps：话说回来，随着近期一众国内AI云服务厂商吹响价格战的号角，端侧AI的价格优势可能并不会那么快凸显出来。）

豆包大模型打响价格战，图源：网络

第二点，访问云端AI大模型需要考虑到网络时延以及稳定性的问题，但是端侧AI可以在本地离线执行，可靠性要高得多。以AI语音助手为例，由于它要求及时应答，因而对于时延具有很高的要求。

有数据指出普通人对话的延迟基本在1秒左右，而现如今主流的AI语音聊天工具时延多达数秒，如果能砍掉网络上传下载过程中所产生的时延（约数百毫秒），对于体验也会具有颇为可观的改善。

当然，对于端侧AI，其更大的意义在于能很好兼顾隐私以及个性化的问题。我们现在看到各种基于AI而打造的天马行空的功能，其实背后都涉及个人用户对于隐私或多或少的让渡。

举例而言，本月谷歌在其I/O大会上展示了他们正在开发的AI助理项目：Project Astra，谷歌表示Project Astra具有记忆能力，可以将拍摄到的画面切片保存下来。在一个场景中，用户询问设备她的眼镜放在什么位置，AI凭借“记忆”能力顺利帮用户找到了眼镜。

此外，微软于本月也发布了一个名为回顾（Recall）的功能，它能记录用户在电脑设备上曾经操作过的内容，比如用户在某一时间段浏览了一个电商网址，但是忘记了保存网页，现在通过回顾这一功能可以轻松实现溯源。

未来用户如果需要将各种私密对话、家庭住址信息等上传云端交由AI处理，对于很多用户而言其实是难以接受的。因而我们可以发现，这一众AI公司都在发布会过程中不厌其烦地声明它们对于隐私的承诺，如谷歌表示不会使用用户数据用于训练AI、微软表示回顾功能将会保持在本地执行等。端侧AI的出现，能够在一定程度上打消人们对于隐私的疑虑。

端侧AI的实践：AI PC、AI手机

今年3月，微软专门针对“AI PC”定了一个标准，其中包括三大方面：基于Windows系统、具备本地运行Copilot的能力以及配备性能最少为40TOPS的NPU（神经网络处理单元），其实这背后所强调的正是设备应当具备的端侧AI能力。

（值得一提的是，如果严格按照微软给出的定义，即便基于CPU+GPU组合的传统电脑性能足够强劲，由于它没有配备NPU单元，那么它也无法称之为AI PC，今年英伟达在一场新闻发布会中对此进行了嘲讽。）

近日的Build年度全球开发者大会上，微软进一步带来了“Copilot+PCs”的新概念，它可以视为“AI PC”的升级版：Windows笔记本电脑需要配置内置AI硬件并支持整个操作系统的AI功能。

对此，微软为Windows系统引入了全新的架构，在AI方面，采用了在Azure云运行大型语言模型+本地端运行小型语言模型（SLM）的组合，SLM旨在提供与大模型类似的能力，但是它们对于硬件需求大大降低，很多AI体验可以直接在本地运行。

发布会期间，微软CEO Satya Nadella展示了多项系统级端侧AI能力更新：如提供实时音视频字幕、草稿实时生成高质量画作以及前面所提到的回顾功能等。

图源：网络

首批获得Copilot+PCs认证的产品均配备了高通的X Elite以及X Plus处理器，它们拥有45TOPS的AI算力，作为参考，X Elite能以30token/s的速度本地运行Llama 2 70B版本。

图源：高通

而在Mac阵营，虽然苹果在AI方面“相对”低调，不过实际上它也在积极着手于将端侧AI体验引入电脑等产品中。

5月的苹果发布会上，新款ipad Pro甚至抢先Mac系列产品线配备了最新的M4芯片，该芯片NPU算力可达38TOPS，库克表示新款iPad性能甚至足以傲视当今的AI PC。本次iPad发布会并没有展示生成式AI相关内容，不过里面出现了基于Final Cut Pro的一键去处视频背景以及Logic Pro的自动生成贝斯音效的端侧AI功能。

图源：苹果

电脑性能强劲，并且天然具备生产力属性，所以端侧AI率先在电脑平台落地不足为奇。外界很多人将今年称之为AI PC元年，调研机构Canalys预测今年AI PC市场份额有望达到19%，出货量达到5100万。

图源：网络

除电脑以外，一众手机厂商也在探索AI在设备端的落地，今年以来，“AI手机”的概念也开始频频传出，所谓AI手机，OPPO所给出的定义是AI手机需要具备：创作能力、自学习能力、真实世界感知能力、算力高效利用能力。今年联发科发布了一份《生成式AI手机产业白皮书》，里面提到：生成式AI手机是利用大规模、预训练的生成式AI模型，实现多模态内容生成、情境感知，并具备不断增强的类人能力。

由此可见，目前市场关于“AI手机”是什么依然没有统一的共识，不过，它或许跟AI PC一样，要求手机具备一定AI算力，并能提供一定的端侧AI体验。

图源：Counterpoint

去年高通骁龙8Gen3发布会期间，高通曾展示了将LLM“塞入”手机的能力，高通表示搭载骁龙8 Gen 3的设备可在本地运行从3B到13B的大模型；而联发科在近期开发者大会期间也表示天玑9300+能够在端侧运行Llama 2 7B版本，速度可达到22token/s。

考虑到智能手机属于小算力、低功耗设备，将大模型直接部署在手机端其实并不现实。未来，AI手机也将会采用“端+云”混合AI的策略，在云端部署大模型，在端侧部署小模型。以今年三星所发布的S24系列机型为例，设备端集成了实时通话转文本、口译员、视频转慢动作等功能，此外，它还可以结合云端大模型实现画圈搜索、文章总结等AI功能。

三星的Note Assist功能，图源：网络

对于苹果而言，苹果的生成式AI技术更侧重于“为最终用户带来实际利益，同时尝试使用端侧AI来保护用户隐私”。有爆料称今年iOS 18将会出现以下端侧AI功能：自动汇总通知、为新闻和语音备忘录生成摘要、日历添加建议、照片AI编辑等。

图源：网络

端侧AI如何与VR/AR相结合

继电脑手机以后，下一步，则是将AI引入VR/AR等可穿戴式设备当中，对于AR设备而言，里面最具想象力的莫过于AI语音助手，不过由于可穿戴式设备对于功耗要求极为苛刻，对此想要实现端侧运行会更为困难。

以Ray-Ban Meta上面所搭载的AR1芯片为例，该芯片的功耗仅有1瓦级，手机芯片功耗为10瓦级，而电脑主机能达到上百瓦，这背后其实也能简单换算不同设备的性能差距。

今年年初，高通发布了一份关于NPU的白皮书，里面描述了高通NPU的发展历程，早些时候SOC专门引入NPU模块旨在用于解决音频和语音相关问题，2016年以后NPU开始更加专注于处理计算摄影，而现在，随着LLM和LVM的发展，它对于NPU提了更高的要求。

回到VR/AR设备来看，既然将LLM、LVM引入设备终端不切实际，我们可以先从音频降噪、视觉增强、空间感知等简单场景切入以解决部分问题，实际上，这也是Meta、苹果等厂商正在努力的方向。

图源：高通

今年1月，Mtea在其博客文章中讲解了关于AI应用于VR/AR的系列用例，其中包括：

基于AI取代传统的计算机视觉算法，可进一步提升环境识别能力以及记忆能力，在Quest v64版本更新中，设备甚至具备了识别家具的能力；
基于AI模型以及机器学习算法，让手柄能将红外追踪环隐藏起来；
基于AI的手势交互、身体追踪；
AI实现Ray-Ban Meta的麦克风阵列降噪，从而提升通话视频体验。

图源：Meta

对于Vision Pro而言，它也在积极落地相应的AI体验，如即将引入实时字幕（Live Captions）辅助功能，启用后，用户将能在屏幕上实时查看对话的文字信息，全局可用。（目前关于该功能的介绍仍不算多，猜测应该支持离线运行）。

图源：网络

由于Vision Pro配备了电脑级芯片，因而未来引入完全基于端侧的AI语音助手其实也并非不可能。今年1月，苹果发布了一篇名为《LLM in a flash：Efficient Large Language Model Inference with Limited Memory》，里面阐述了如何解决将LLM引入手机终端时遇到的手机内存不足的问题。有数据指出，70 亿参数的模型需要14GB以上的内存才能加载半精度浮点格式的参数，这对于Vision Pro而言压力其实不算很大。（Vision Pro NPU算力约15.8TOPS，配备16GB RAM）

此外，近期苹果在AI方面动作频频，以下这些AI体验/能力除了应用于未来的手机电脑终端外，它们同样可以应用于VR/AR设备当中：

今年2月苹果发布MGIE模型，用户基于文本即可实现图像的简单编辑，如增加图片对比度、为照片引入新元素等；
今年4月苹果发布开源LLM OpenELM，最低参数量仅有2.7亿，它与微软Phi-3类似，非常适合运行于手机等小型化设备当中；
今年4月苹果发布手机端多模态大模型Ferret-UI的相关论文，Ferret-UI能够非常高效地识别屏幕的UI元素，并具备较强的推理能力，未来用户有望实现通过Siri一键打车等操作。