拳打 GPT-4-Turbo、脚踢 Mistral-7B，苹果首次公布自研模型细节

2024-06-11资讯

整理 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

WWDC 首日已经结束，今天凌晨苹果发布的「Apple Intelligence」引起的反响相当激烈：有人质疑跨 App 交互导致的隐私数据问题，还有人觉得这次会的「料」不算很多，而马斯克看到 OpenAI 和苹果官宣合作之后，更是恨不得直接开着星舰撞向旧金山。

「我要把用苹果设备的员工逐出家门！」

目前，iOS 18 Beta 已经更新完毕，身处苹果第一线的用户可以开始体验苹果在「端侧 AI」上交出的答卷。

然而，许多人的目光放在了 GPT-4o 加持的 Siri 以及其他争议拉满的更新上面，对苹果自研的端侧大模型尚不了解；而苹果也是在下午默默地放出了一篇文章介绍自己推出的一系列人工智能基础模型策略，其中既有参数为 3B 的 On-Device Models （端侧模型），也有 Server Foundation Models （服务器端模型），引起了开发者社区大量围观：

但这不看不知道，一看吓一跳：在总结和写作方面，苹果的端侧模型可以打赢 Mistral-7B ，服务器模型可以打赢 GPT-4-Turbo ？下面放出全文，探探这个 Apple Intelligence 的深浅究竟如何。

经典环节：承诺「负责任的 AI」

苹果于 2024 年全球开发者大会（WWDC）上推出了 Apple Intelligence，这是一个深度融合至 iOS 18、iPadOS 18 与 macOS Sequoia 的个人智能系统。

Apple Intelligence 集结了一系列专为用户日常需求定制、并能即刻适应当前活动的高性能生成式模型。这些构成 Apple Intelligence 的基础模型，针对文本编辑与完善、通知管理与摘要、与亲友聊天时生成趣味图片，以及跨应用程序交互简化的操作体验进行了细致调优。

接下来的概览将详述这两款模型 —— 一款约含 30 亿参数、 直接部署在设备上的语言模型 ，以及一款与 Private Cloud Compute 整合、运行于 Apple 自研芯片服务器的 大型服务器端语言模型 —— 是如何被构建并适应高效、精确且负责任地执行特定任务的。

这两大基础模型隶属于 Apple 打造的、旨在赋能用户与开发者的生成式模型全家桶，其中还涵盖了助力 Xcode 实现智能化的 编程模型 ，以及在信息应用等场景中辅助用户视觉表达的 扩散模型 。期盼未来能分享更多有关这一广泛模型体系的详情。

总结：苹果的自研模型全家桶目前确认会有四款模型。

Apple Intelligence 在设计之初便融入了苹果的核心价值观，并建立在创新隐私保护技术的基础上。

此外，苹果制定了一套负责任 AI 准则，指导内部如何开发 AI 工具及其支撑模型：

赋予用户智能工具 ：在确保负责任的前提下，识别能够通过 AI 解决特定用户需求的领域。苹果尊重用户选择这些工具实现目标的方式。

代表用户群体 ：苹果致力于打造深入个人的产品，真实反映全球用户的多样性；他们将持续努力，避免在 AI 工具和模型中延续刻板印象及系统性偏见。

谨慎设计 ：从设计、模型训练、功能开发到质量评估，每一步都采取预防措施，识别 AI 工具可能被误用或导致潜在伤害的方式。苹果将借助用户反馈，不断主动改进 AI 工具。

守护隐私 ：利用强大的设备端处理能力与 Private Cloud Compute 等开创性基础设施，保护用户隐私。在训练基础模型时，苹果承诺不使用用户的私人数据或交互信息。

这些原则贯穿于 Apple Intelligence 的架构之中，连接特色功能与专门模型，监控输入与输出，确保每一项功能都能负责任地运作。

下文其余部分将阐述诸如：如何开发高效、快速且节能的模型；苹果的训练方法；适配器如何针对具体用户需求进行微调；以及苹果如何评估模型性能，确保其既有助益又避免非预期危害。

六步打造苹果基础模型

揭秘苹果训练模型全过程！

预训练阶段（Pre-Training）

苹果基础模型依托于 Apple 的开源项目 AXLearn ，这是 2023 年面世的先进训练框架，建立在 JAX 与 XLA 基础上，它提供了跨 TPUs 及各类云端、本地 GPU 的高效、可扩展模型训练能力。苹果综合运用数据并行、张量并行、序列并行及全分片数据并行（FSDP）技术，从数据规模、模型复杂度到序列长度等多角度扩大训练规模。

训练数据选取方面，苹果既有针对性地引入提升特性的授权资料，也整合由网页爬虫 AppleBot 搜集的公共信息，同时， 网站主有权选择不参与 Apple Intelligence 训练计划 。保护隐私方面，苹果严格避免使用用户个人数据及交互记录，实施过滤机制排除互联网上的社保号、信用卡号等敏感信息，并剔除粗俗内容及低质材料，以保障训练集的质量。此外，苹果还执行数据精炼、去重及基于模型的优质文档甄别工作。

后训练阶段（Post-Training）

数据质量被视为模型效能的关键，因此苹果的训练流程融合了人工标注数据与合成数据，辅以严格的资料治理与筛选过程。在后训练环节，苹果创新性地提出了两项算法：一是教师团队辅助的拒绝采样微调法；二是结合镜像下降策略优化与单例优势评估的基于人类反馈的强化学习（RLHF）。这两项算法极大提升了模型遵循指令的能力。

优化措施

确保生成模型高性能的同时，苹果通过一系列革新策略，优化了其在终端与私有云环境下的运行速度与效率。这些优化涵盖了首 token 推理及连续 token 推理的各个方面。

不论是设备端还是服务器端模型，苹果都采用了分组查询注意力机制，并通过共享输入输出词嵌入表减小内存占用和推理开销，这些表在映射时不产生冗余。设备端模型配置了 49K 词汇量，而服务器端则使用了包含更多语言与技术词汇的 100K 词汇量。

设备端推理上，苹果运用了低比特量化技术，既满足了内存、能耗和性能需求，又通过 引入 LoRA 适配器框架 ，采用 2 比特与 4 比特混合 配置方案（平均每位权值 3.5 比特），保持了模型精度不变。

苹果还利用交互式模型延迟与功耗分析工具 Talaria ，精确调控各项操作的量化级别。另外，激活量化与嵌入量化亦被采纳，且设计了针对神经引擎的高效 KV 缓存更新方案。

经过上述优化，在 iPhone 15 Pro 上，苹果实现了约 0.6 毫秒 的首次 token 延迟，以及每秒 30 tokens 的生成速度。这还是在未采用 token 预测技术之前，后者将进一步加速 token 生成。

模型适应性调整

基础模型通过微调融入用户日常应用场景，具备了按需实时自我定制的能力。苹果借助适配器——即可插拔于预训练模型各层级的小型神经网络组件——对特定任务进行微调，调整范围覆盖了 Transformer 架构解码层的注意力矩阵、注意力投射矩阵及点对点前馈网络的全连接层。

仅对适配器层进行微调，确保了基础模型的核心知识结构不变，同时适配器层灵活适应任务需求。

适配器参数以 16 位形式存储，对于约 30 亿参数的设备端模型，一个 rank 16 的适配器参数集占用几十 MB 空间。适配器模型支持动态加载、内存缓存及切换，使基础模型能随任务需求实时调整自身，高效管理内存资源，确保系统响应敏捷。

为加速适配器训练，苹果还搭建了高效基础设施，便于在基础模型或训练数据更新时快速迭代、测试及部署适配器。适配器参数初值设定基于优化章节提及的精度恢复适配器方案。

性能评估环节：以人为本

苹果致力于打造能让用户跨设备沟通、工作、自我表达并高效完成任务的生成模型。在衡量模型性能时，测试团队重视 人类的反馈 ，下面的所有图表也都标注着「人类评审员」的字样 —— 因为这能紧密关联到实际产品体验。整套评估工作涵盖了特有功能适配器及核心模型的效能。

PK 项目 1：摘要总结

鉴于邮件和通知摘要的需求虽然细微但极其关键，苹果对压缩后的基础模型应用了精度恢复 LoRA 适配器进行微调，以贴合具体需求。训练素材基于大型服务器模型产出的合成摘要，并经由严格的筛选机制，仅保留最优质的部分。

为了验证特定场景下的摘要质量，苹果选取了 750 份精心挑选的样本，每一种应用场景均包含在内。这组评估资料特意包含了产品特性在实际应用中可能遇到的各种复杂输入情况，既有单一文档也有复合文档，内容类型和长度各异。确保贴近真实应用场景对评估来说至关重要，结果显示，采用适配器的模型生成的摘要优于同类模型。

为了开发「负责任的 AI」，苹果还识别并分析了摘要功能内在的风险，比如某些情况下摘要可能会不当简化信息。幸运的是，摘要适配器在超过 99% 的对抗性示例中未加剧敏感内容的问题，随后测试团队持续进行对抗性测试，以探索未知风险点，并据此指导后续优化。

图为两种摘要应用场景下「优秀」与「不佳」反馈占比，依据评价者在五个标准上的打分划分。只有当所有维度均达到高分标准时才被视为「优秀」，有任何一项指标得分偏低即被标记为「不佳」。结果表明，苹果的适配器增强模型在摘要生成上更胜一筹。

PK 项目 2：通用能力

除了功能特性的专项测试，苹果也检验了设备内置模型和云端模型的通用能力。采用广泛的真实世界情境作为测试样本，这些情境包罗万象，从简单的创意思维到复杂的数学问题解答，再到代码编写和文本安全检测。

苹果将自家模型与开源界（如Phi-3、Gemma、Mistral、DBRX）及业界同量级的商用模型（GPT-3.5-Turbo、GPT-4-Turbo）进行了对比。结果显示，多数情况下，苹果模型更受人类评审员的青睐。

尤为值得一提的是，即使参数量仅为约 30 亿的设备端模型，在多项基准测试中也能超越 Phi-3-mini、Mistral-7B 和 Gemma-7B 等大模型。而云端模型的表现更是优于 DBRX-Instruct、Mixtral-8x22B 及 GPT-3.5-Turbo，同时保持着极高的效率。

PK 项目 3：风险敏感

测试团队还利用一套多样化的对抗性提示来检测模型在处理有害信息、敏感话题及事实准确度方面的表现。

通过人类评审员的打分，测试团队量化了模型在这类测试中的违规频率，数值越低代表表现越佳。无论是设备端还是云端模型，在面临挑战性测试时都表现出了强大的稳健性，违规率远低于开源和商业竞品。

在有害内容、敏感话题及事实准确性方面的违规响应占比，数值越小意味着模型越能妥善应对对抗性挑战。苹果的模型在这方面展现出了显著的鲁棒性。人类评审员一致认为，相较于竞争对手，苹果的模型在安全性与实用性上更胜一筹。尽管如此，鉴于大语言模型的广泛潜力，研究团队深知当前安全评估的局限。因此， 苹果正与内外部团队密切合作 ，通过手动及自动化手段持续进行安全审计，以期不断提升模型的安全水平。

PK 项目 4：模型安全性

相较于竞争者，在特定情境提示下，苹果的基础模型被人类评审员一致认为更安全、实用。尽管如此，鉴于大语言模型的多功能性，研究团队也清楚意识到当前安全评估标准的局限性。因此，苹果正携手内外部团队，积极开展手动与自动化红蓝对抗测试，持续监控模型安全性表现。

上面这张测评描述了安全导向评估场景下，苹果基础模型相对其他可比模型在获得偏好评价方面的占比。通过人类审核确认，苹果模型的回应不仅更安全，且实用性更强。

PK 项目 5：指令执行能力

为进一步验证性能，苹果借助 Instruction-Following Eval（IFEval）标准，与同等级别模型对比指令执行能力。结果显示，无论是在设备内置还是云端版本上，苹果模型均优于市面上开源及商用竞品，展现出对复杂指令的出色遵循力。

上图展示了苹果基础模型及其同类规模模型的指令遵循能力得分（IFEval 测试，分数越高代表能力越强）。

PK 项目 6：写作

为了检验写作技能，测试团队利用包含多样写作指令的内部摘要与创作指标进行评估。需注意的是，这部分测试不涉及第一轮 PK 中提及的特定摘要适配器，也未专门设计用于评估创作能力的适配器。

下面这张图反映了在上述内部评估体系下，模型的写作能力水平（同样遵循高分优原则）

于 WWDC24 发布的苹果基础模型及其适配器体系，是 Apple Intelligence 的核心支撑，这一全新个人智能化系统深度融入了 iPhone、iPad 和 Mac，全方位提升了用户的语言处理、图像识别、行动指导及个性化体验。

苹果的目标是助力用户轻松完成跨设备的日常任务，并确保在每个开发环节都秉持苹果的核心价值理念，负责任地推进技术进步。未来，苹果还会带来更多关于生成模型系列的最新动态，涵盖语言、扩散模型及编程模型等前沿领域。

开发者正在迎接新一轮的技术浪潮变革。由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的 2024 年度「全球软件研发技术大会」秉承干货实料（案例）的内容原则，将于 7 月 4 日-5 日在北京正式举办。大会共设置了 12 个大会主题：大模型智能应用开发、软件开发智能化、AI 与 ML 智能运维、云原生架构……详情👉： http://sdcon.com.cn/