国行 Vision Pro 来了；库克奥特曼甜蜜「联姻」

2024-06-11资讯

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

Apple Vision Pro 登陆中国大陆，6 月 28 日正式上线，29999 起售

OpenAI 与苹果公司宣布重要合作

OpenAI 高层扩容：迎来新 CFO 与 CPO

苹果发布「Apple 基础模型」引领机器学习新突破

Google 发布 Tx-LLM，改变生物医药领域的游戏规则

上交大开源 TurboSparse 以最少激活参数实现 LLM SOTA 性能

微软 VALL-E 2 革新语音合成技术，首达人类水平零样本 TTS 表现

全球 AI 要闻

Apple Vision Pro 登陆中国大陆，6 月 28 日正式上线，29999 起售

在 11 凌晨结束的 WWDC 2024 全球开发者大会主题演讲上，苹果公司首席执行官蒂姆·库克宣布了万众期待的消息：革命性空间计算设备 Apple Vision Pro 将于 6 月 28 日在中国大陆正式上市，标志着苹果在混合现实领域的最新力作即将与广大中国消费者见面。

Apple Vision Pro，这款被业界誉为开启空间计算新纪元的产品，凭借其无缝融合数字内容与现实世界的非凡能力，自首次亮相以来便备受瞩目。据苹果中国官网显示，国行版本的起售价为 29999 元，提供 256GB、512GB 以及 1TB 三种存储容量选项，满足不同用户的需求。

OpenAI 与苹果公司宣布重要合作

科技巨擘 OpenAI 和苹果公司今日宣布了一项重大合作计划，旨在共同革新人工智能领域。此次联盟汇集了 OpenAI 在尖端人工智能研究方面的深厚实力以及苹果公司在消费技术与硬件创新上的广泛专长。

合作重点在于将前沿的人工智能技术（如 ChatGPT）融入苹果公司的未来产品线中，全面提升跨设备的用户体验。预期这一结合将推动开发出更加直观、高效及个性化的功能，进一步巩固苹果作为人工智能与消费电子融合领域先驱的地位。

OpenAI 高层扩容：迎来新 CFO 与 CPO

人工智能研究实验室 OpenAI 近日宣布重要人事任命，正式迎来两位关键高管的加入，进一步壮大其领导团队。该公司欣然宣布聘请经验丰富的财务专家 Sarah Friar 担任首席财务官（CFO），以及产品开发领域的领军人物 Kevin Weil 出任首席产品官（CPO）。这两位新成员将分别负责 OpenAI 的财务战略规划与产品创新方向，推动公司在人工智能技术的探索与应用上达到新高度。

苹果发布「Apple 基础模型」引领机器学习新突破

WWDC 首日结束后，苹果公司宣布推出「Apple Foundation Models」（Apple 基础模型），这是一系列高级机器学习系统，旨在提升其产品生态中的智能与功能。这些基础模型标志着苹果公司在将尖端 AI 技术融入日常用户体验方面的持续承诺迈出了重要一步。

基于深入研究并利用苹果庞大的数据资源，这些基础模型旨在理解上下文、生成内容以及促进用户与其设备间更为自然的互动。通过增强的语言处理、图像识别和预测分析能力，这些模型旨在使苹果产品更加直观、个性化，并能主动满足用户需求。

苹果的端侧模型大小为 3B，在 iPhone 上延迟为 6 毫秒，每秒可以输出 30 个 Token 。使用 AXLearn 框架进行模型训练，并采用了多种并行化技术来提高训练效率。通过使用 Lora 来微调其基础模型，使其能够适应用户的日常活动，并且能够即时调整以适应特定任务。

性能评测图如下：

苹果强调「隐私」依然是此项开发的核心，保证所有数据处理遵循公司严格的隐私标准。Apple Foundation Models 的推出表明，苹果将继续推进创造更智能、更安全的 AI 驱动体验，同时不损害用户隐私。

苹果在公告中还强调了未来的研发合作计划，以及这些模型在医疗健康、教育和环境保护等领域的潜在创新应用，进一步展示了这些进展可能带来的广泛影响。

Google 发布 Tx-LLM，改变生物医药领域的游戏规则

Google 近日推出了基于 PaLM-2 的人工智能 Tx-LLM，该模型经过微调，适用于多种治疗用途。Google 研究部门与 DeepMind 合作开发的这款大型语言模型，在 66 项药物发现任务中表现出色，其中 22 项超越当前最先进水平，另外 43 项成绩斐然。尤其值得注意的是，它在整合分子结构与文本数据方面的卓越能力，展现了高级的跨任务学习能力。研究人员将其强大的性能归功于独特的训练数据集——包含 709 个集合——以及能够灵活处理化学实体、生物实体和自由文本的设计。Tx-LLM 作为横跨制药研发管道端到端解决方案的潜力，标志着人工智能驱动的医疗健康创新领域的一个变革性转变。

论文： https://arxiv.org/abs/2406.06316

上交大开源 TurboSparse 以最少激活参数实现 LLM SOTA 性能

一项名为 Turbo Sparse 的研究论文揭示了如何在不牺牲性能的前提下，显著加速大型语言模型（LLMs）的推理过程，这一成果有望开启 AI 效率新时代。论文由上海交通大学并行与分布式系统研究所、清华大学计算机科学与技术系及上海人工智能实验室的学者合作完成。

核心贡献在于提出了一种创新的激活函数——dReLU，专门设计来增强 LLMs 的激活稀疏性，解决了 SwiGLU 和 GeGLU 等常用激活函数稀疏性有限的问题。研究团队不仅通过 dReLU 实现了高度稀疏化，还引入了高质量训练数据混合比例策略，确保了有效稀疏化的同时避免了因数据不足导致的性能下降。

此外，该研究还利用混合专家模型（MoE）中前馈网络（FFN）专家内部的稀疏激活模式，进一步提升了效率。应用此神经元稀疏化方法于 Mistral 和 Mixtral 模型上，使得每次推理仅需激活 25 亿和 43 亿参数，同时模型性能更上一层楼，实验证明这带来了 2 至 5 倍的解码速度提升。尤其值得一提的是，TurboSparse-Mixtral-47B 在移动设备上的推理速度达到了惊人的每秒 11 个词元。

论文： https://arxiv.org/abs/2406.05955

模型开源链接： https://huggingface.co/PowerInfer

微软 VALL-E 2 革新语音合成技术，首达人类水平零样本 TTS 表现

微软最新发布的神经编解码语言模型——VALL-E 2，在零样本文本转语音（TTS）领域取得里程碑式突破，首次实现与人类声音的对等质量。作为 VALL-E 的升级版，VALL-E 2 通过两大技术创新树立新标杆：「重复感知采样」技术优化了核采样过程，通过考虑解码历史中的令牌重复，不仅稳定了解码过程，还成功避免了无限循环问题；「分组编码建模」策略则通过将编解码代码分组，有效缩短序列长度，这一策略不仅提升了推理速度，还有效应对了长序列建模的挑战。

实验结果显示，在 LibriSpeech 和 VCTK 数据集上，VALL-E 2 在语音鲁棒性、自然度及发音人相似度方面超越了以往系统，成为首个在这类基准测试中达到人类水平的 TTS 系统。尤为值得一提的是，即便面对复杂句式或重复短语等传统难题，VALL-E 2 仍能持续生成高质量语音，展现了其技术的先进性和实用性。这一技术进步有望为帮助失语症患者或渐冻症患者生成个性化语音等重要应用领域带来深远影响。

论文： https://arxiv.org/abs/2406.05370

开发者正在迎接新一轮的技术浪潮变革。由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的 2024 年度「全球软件研发技术大会」秉承干货实料（案例）的内容原则，将于 7 月 4 日-5 日在北京正式举办。大会共设置了 12 个大会主题：大模型智能应用开发、软件开发智能化、AI 与 ML 智能运维、云原生架构……详情👉： http://sdcon.com.cn/

国行 Vision Pro 来了；库克奥特曼甜蜜「联姻」 | AI 头条