2024-05-06资讯

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

库克：苹果在 AI 领域不仅要超越竞争对手，还要树立行业新标杆

Momenta 冲刺 IPO，自动驾驶技术商用化再提速

Sora 最新技术曝光，可替换或修改视频中的单个指定元素

AI 驱动音频书突破 4 万大关

AI 竞赛白热化：基础模型开发成本逼近十亿门槛

巴菲特预警：AI 诈骗或成新兴高增长风险领域

NVIDIA AI 研究员发布 VILA：革新视觉语言模型，实现跨图像推理与视频理解

全球 AI 要闻

库克：苹果在 AI 领域不仅要超越竞争对手，还要树立行业新标杆

在全球科技巨头竞争日益激烈的今天，苹果公司 CEO 蒂姆·库克于第二季度财报电话会议中明确表达了苹果在人工智能领域的雄心壮志——不仅要超越竞争对手，还要树立行业新标杆。库克强调，苹果在 AI 领域的独特竞争力植根于其对硬件性能的极致追求和对用户隐私权益的坚决捍卫，这两大核心优势构成了苹果 AI 战略的坚固基石。

据库克透露，苹果正加大对生成式人工智能技术的投资力度，暗示未来将有创新成果面世，引发业界高度期待。有可靠消息指出，苹果可能借 6 月即将召开的全球开发者大会（WWDC）舞台，首次展示其在 AI 技术，尤其是自然语言处理方面的最新突破。传言中的 iOS 18 操作系统将集成自研大型语言模型 Ajax，旨在显著增强 Siri 的智能交互能力，并深度优化一系列原生应用体验。

尤为值得关注的是，苹果长期致力于离线响应生成技术的研发，目标是在无网络环境下也能使设备上的 AI 系统生成文本反馈，这一技术进步有望引领移动 AI 应用进入新纪元。尽管 Ajax 能在本地生成基础文本，复杂任务处理仍需借助云端，但苹果正积极探索设备端文本生成的全面解决方案，力图在保障用户隐私的同时，实现 AI 功能的无缝衔接。

Momenta 冲刺 IPO，自动驾驶技术商用化再提速

北京初速度科技有限公司（Momenta）近期被知情人士曝光已悄然推进其在美国的首次公开募股（IPO）筹备工作。据悉，该公司正与 CICC、高盛、瑞银紧密协作，计划年内完成上市，预计募得资金 2 - 3 亿美元，为自动驾驶解决方案的全球扩张蓄力。

Momenta 以「数据驱动」的技术飞轮为核心，融合量产与全无人驾驶双线战略，展示出在自动驾驶技术深度与广度上的非凡掌控力。其创新成果不仅赢得了行业内外的高度评价，还吸引了上汽、云锋基金、奔驰、丰田、博世等众多国际巨头的战略投资，彰显其在智能出行领域的技术领导力。

Sora 最新技术曝光，可替换或修改视频中的单个指定元素

据 X 上最新透露的内部演示视频显示，Sora 的技术能够对已生成的视频内容进行微控编辑，实现仅替换或修改视频中的单个指定元素，而保持其余场景风格和内容的一致性。视频中，Sora 能够灵活地在不同的视频场景中替换焦点对象，如视频中的人物，同时确保背景环境虽有细微差异——例如街道上的水渍形态变化、墙面上涂鸦的随机调整——整体视觉效果仍然和谐统一。这一突破性进展不仅体现在对单一元素的精准操控上，更在于其背后强大的算法支撑，能够智能生成与原视频风格相似但非完全一致的背景渲染，确保内容的新颖性和真实感。

AI 驱动音频书突破 4 万大关

Audible 平台宣布其 AI 配音的有声书数量已超过 4 万册，这标志着人工智能技术在出版行业的广泛应用达到了新的高度。此次扩张不仅为作者开辟了增加收入的新渠道，同时也引发了关于技术替代与用户体验的深入讨论。

随着 Spotify 等竞争对手的不断崛起，Audible 通过推出「Audible Standard」订阅计划积极应对，该计划利用 AI 配音书籍，为澳大利亚用户提供价格更为亲民的选择，其费用较 Premium Plus 套餐降低近半。此举紧跟亚马逊 Kindle Direct Publishing(KDP) 的脚步，后者此前在美国推出了一项 Beta 工具，允许自出版作者快速将电子书转换为 AI 朗读的有声书，显著缩短制作周期并降低成本。

AI 竞赛白热化：基础模型开发成本逼近十亿门槛

近日，大型语言模型（LLM）的训练成本随着性能突破人类水平而激增，预示行业格局剧变。科技巨头与合作伙伴正投入巨资，如 Anthropic 的旗舰模型 Claude 3，其训练成本已超 1 亿美元，后续模型成本或将触及 10 亿美元。与半导体产业类似，高昂费用或将导致 AI 创新仅限于极少数大企业，威胁行业多样性与创新能力。专家呼吁支持开源项目和协作模式，以维持 AI 领域的广泛参与和均衡发展。

巴菲特预警：AI 诈骗或成新兴高增长风险领域

在伯克希尔·哈撒韦年度股东大会上，投资大师沃伦·巴菲特发出警告，认为人工智能（AI）技术在促进正面变革的同时，也可能催生史上最大规模的诈骗「增长行业」。巴菲特强调，AI 技术通过生成高度逼真的误导性内容，为不法分子提供了前所未有的欺诈手段，尤其是在语音克隆和深度伪造领域，这些技术常被用于冒充亲友身份，骗取钱财或个人敏感信息。

尽管承认 AI 拥有巨大的正面潜力，巴菲特指出，作为一个对此技术并不精通的人，他深感 AI 在促进社会福祉的同时，也孕育着巨大的危害风险，其长远影响难以预测。巴菲特将 AI 的潜在危险比作 20 世纪核武器的「潘多拉魔盒」，一旦开启，其后果难以预料且控制。

在华尔街，AI 已成为热议话题，投资者寄望于其能推动未来利润增长，相关股票如英伟达和 Meta Platforms 在此期间分别实现了 507% 和 275% 的惊人涨幅。尽管市场热情高涨，巴菲特却坦承自己并不熟悉 AI 领域，但他认为 AI 的发展路径与核武器相似，都是在释放出强大能力的同时，也带来了深刻的不安。

NVIDIA AI 研究员发布 VILA：革新视觉语言模型，实现跨图像推理与视频理解

NVIDIA 与 MIT 的研究团队携手推出了一项名为 VILA（Vision Language Model）的开创性技术，该模型能够在多个图像间进行推理，结合上下文学习，并理解视频内容。VILA 框架通过创新的嵌入对齐策略与动态神经网络设计，在 Coyo-700m 等大规模数据集上的预训练中，显著提升了视觉与文本的协同学习能力。

研究采用了 Visual Instruction Tuning 方法，对模型进行基于指令的微调，不仅在 OKVQA 和 TextVQA 基准测试中取得了 70.7% 和 78.2% 的准确率，大幅超越现有标准，还成功减少了约 90% 的「灾难性遗忘」现象，这意味着 VILA 在学习新任务的同时，能有效保留先前知识。

VILA 的成功标志着视觉语言模型领域的一大进步，为开发更高效、适应性更强的 AI 系统提供了新的解决方案，有望在医疗、金融分析及自动驾驶等多个领域实现广泛应用。

GitHub 链接： https://github.com/Efficient-Large-Model/VILA

论文链接： https://arxiv.org/abs/2312.07533

库克：苹果要当 AI 龙头；Sora 可以在视频中只修改一个元素；巴菲特警告 AI 诈骗风险 | AI 头条

库克：苹果在 AI 领域不仅要超越竞争对手，还要树立行业新标杆