手机中的AI大模型,会是苹果赖以翻盘的关键吗?
在 AI 时代落后其他硅谷巨头一个身位的苹果,终于要开始出手反击。
作为曾经推出过 iPhone/AirPods/AppleWatch 这样几度改变行业生态产品的公司,苹果所取得的成就堪称抓住了一个时代的脉搏,但在 AI 时代随之而来的,还有新时代开启之后给旧时代王者的巨大压力。
【资料图】
作为迄今为止唯一至今没有推出大模型产品的硅谷巨头,苹果在 AI 为王的 2023 年上半年,仿佛也确实失去了不少气势;在今年 WWDC 上,苹果没有直接提到一次 AI,但这更像是苹果一贯以来的文字游戏:在诸多介绍新功能的 PPT 之下,AI 几乎无处不在地存在于苹果发布的每一项新产品中。
从 Vision Pro 使用机器学习构建模型,为用户自动生成专属的「数字面具」;AirPods Pro 根据用户所处环境背景音自动调节降噪等级与播放音量,再到 iPadOS 17 新增的增强版 PDF 内容自动识别功能,在底层技术上都非常依赖苹果在 AI 领域的投入成果。
今年苹果第二季度披露的财报数据,苹果今年的研发投入支出已经达到了 226.1 亿美元,比上年增加了 31.2 亿美元。根据苹果 CEO 蒂姆库克在接受路透社采访时的介绍,这笔资金其中很大一部分,都是用于苹果生成式人工智能的研究,并且未来几个月还将继续投入大量资金。
库克在财报电话会中表示:"多年来,我们一直在进行包括生成式人工智能在内的各种人工智能技术的研究。我们将继续投资和创新,并负责任地利用这些技术推进我们的产品,帮助丰富人们的生活。"
库克的这一回答,似乎已经从侧面印证了此前关于「AppleGPT」的传闻:据彭博社报道,苹果内部正在测试名为基于 Ajax 大模型开发的生成式对话机器人,而 Ajax 则是苹果内部为了统一机器学习开发平台,使用 Google Jax 机器学习开源框架构建,并在 Google Cloud 云计算平台中运行的大模型。
知情人士同时还表示,苹果内部已经有多个团队,参与到「AppleGPT」的开发,同时致力于解决大模型潜在的隐私问题。目标是在 2024 年内拿出产品级的成果,如今曾在 Google 负责人工智能和搜索业务的 John Ginnandrea 在苹果领导着整个苹果大模型项目的开发,看起来苹果想要快速推出自己的大模型产品,也只是时间问题。
但或许传统意义上的「大模型」,已经不是苹果想要此时发力的领域;虽然今天的技术能力还远不足以让 ChatGPT 级别的生成式人工智能运行在手机中,但简化版 ChatGPT 在技术上完全可行,甚至出现时间要比 OpenAI 发布初代 ChatGPT 要更早。
因为AI算法需要处理大量数据并消耗大量计算资源,所以 AI 运行所需的模型应该被部署在云端。已经是很多人对于大模型概念中最根深蒂固的「刻板印象」之一。但 AI 不仅仅存在于云端。在许多情况下,基于人工智能的数据处理和决策,都需要在靠近网络边缘的本地设备上进行。这是「端侧大模型」概念的由来。
这不仅仅是将 ChatGPT 通过 App 的方式安装进你的手机,而是在手机中通过软硬件相结合,将 AI 大模型本身部署在手机中。端侧大模型的核心,是在尽可能少的空间与算力维持大模型运行的同时,在几乎无限多的应用领域,通过大模型能力来改变现有流程。
据《金融时报》报道,苹果从今年四月起,开始在官网招聘页面中发布位于加州、西雅图、巴黎和北京的办公室的数十个 AI 职位招聘信息,这些职位将在苹果内部归属机器智能与神经设计(MIND)团队,确保压缩现有的语言模型以便更加高效地在移动端设备上运行。
从招聘信息中,还能看出苹果的确正在开发一款类似 ChatGPT、能「根据简单的文字提示,生成可信的文本、图像或代码」的对话机器人。苹果还在巴黎等地通过挖角 Meta 的方式,快速组建起团队,规划进一步发展。
早在通用大模型这个概念诞生之前,包括苹果在内的多家硅谷大厂已经开始在布局端侧的 AI 应用场景,只是那时候还没人意识到其中蕴含的真正潜力。
在大模型经历过席卷全球的爆火、最初的狂热已经逐渐降温之后的今天,业内逐渐意识到端侧大模型的真正潜力:相比完全交由云端服务器处理的模式,端侧大模型主要能带来三个优势:
本地数据处理换来的速度提升
对云端服务器带宽的节省
对用户数据更好的隐私保护
即使网络访问速度再快,由于网络传输导致的延迟问题也几乎无可避免。这是目前包括 ChatGPT 在内所有依赖云端服务处理请求的生成式 AI 对话机器人的软肋。同时也是 Google、亚马逊均在着力端侧 AI 落地在智能助理领域的原因。
而苹果在端侧大模型的发力,或许不能给苹果带来诸如 Google Bard 或微软 New Bing 一样具有高话题度的爆款产品,但可能是推动端侧大模型更快速落地的关键。
“苹果的短期目标是将生成式人工智能与现有产品集成,使其立即变得高效同时有用” 独立研究员和网络安全顾问 Lukasz Olejnik 表示。
隐私先于 AI 功能
减少对带宽的依赖,并不是端侧 AI 的唯一卖点,安全性同样也是其中的优势 —— 苹果每年在设备隐私功能上投入数亿美元,并且一贯将隐私作为其产品服务核心卖点之一。在手机上运行大模型无需互联网连接或将数据发送到云端,自然能以更安全和私密的方式处理用户的数据。
虽然不能说苹果为了隐私而构建端侧大模型,但至少苹果在端侧大模型的开发过程中不断地受到「隐私为王」这一理念的影响。这让隐私的重视的优先级要比 AI 所带来的功能更高,已经决定了苹果在 AI 发展中所处的独特地位。
苹果在隐私领域将边缘计算投入运用的历史已久:一直以来因为智能化程度不足、被诟病颇多的 Siri,其实是世界上首个搭载本地语音识别功能的智能助理;这一功能能帮助手机智能语音助理更快速地识别对话信息并反馈,同时无需将任何来自用户的对话数据上传到云端。
但这仍然不够成为大模型时代中足够好的案例 —— 毕竟 Siri 至今仍然是那个不怎么聪明的 Siri,而用户感知更强的总是大模型在内容创造能力上的惊艳。这即是大模型的魔法,也是苹果过去在大模型研究领域长期存在的短板。
2020 年,苹果以两亿美元低调收购了 从非营利 AI 研究机构 AI2 分离出来的西雅图 AI 初创企业 Xnor.ai。这在当时引起了巨大的关注。外界纷纷从 Xnor.ai 此前的研发方向,推测苹果未来布局 AI 的具体场景。
创始人 Ali Farhadi 最初创立 Xnor.ai 是为了致力于研发让机器学习算法更加高效、甚至能在低性能的硬件上运行,比如在摄像头的嵌入式芯片中运行相关算法。这其实与 AGI 并没有太强的直接关系,甚至完全称不上是与 OpenAI 同类型、专注于大模型研发的创业公司。
但从这次收购中,苹果显然已经学到了不少关于「端侧大模型」的应用方式,并将其应用在苹果生态内的包括 HomePod 等产品中。苹果用户时常将 HomePod 根据在房间内摆放位置、自动计算最佳声场发声效果的功能吹的天花乱坠,但他们只是没有意识到,这本身已经是苹果在端侧 AI 应用的无数次尝试其中成果之一。
除了苹果之外,端侧大模型由于更加广阔的前景,已经让这里变成了云端大模型之后的下一个战场:Google 已经宣布了将 PaLM 2 大模型在移动端算力的设备上测试的计划,Meta 发布的 Llama 2 也支持在手机、工作站等平台运行;高通也宣布了下一代能用于在智能手机上运行大模型的 SoC 平台,号称能将移动端性能与精度都达到与云端服务器相近的水平。亚马逊也在尝试更多在移动端设备上部署轻量化语言模型的硬件产品,从而进一步提升智能助理的易用性。
而在国内,百度、腾讯华为等厂商都发布了自有移动端模型以及开发/部署工具,致力于推动达模型在端侧的轻量化部署,现阶段,手机端的算力已经能做到将十亿参数级别的语言模型压缩进手机中。华为 P60 系列、Google Pixel 等手机都曾进行过将模型进行了轻量化处理、在手机中集成相关功能的尝试。
无论苹果大模型最终的落地形态如何,但端侧大模型已经不仅仅是苹果的「新希望」,更是智能手机领域备受期待的下一个增长点。也只有整个行业快速推动与之相关的开发工具与生态建设,才能进一步降低让大模型运行在手机中的门槛,让端侧 AI 在保护用户隐私的同时,推动端侧 AI 功能的进化。