整理 | 王轶群
出品 | AI 科技大本营(ID:rgznai100)
一分钟速览新闻点!
苹果或将在 AI 领域与 Meta 合作,Anthropic 和 Perplexity 参与了讨论
因欧盟规定,苹果推迟在欧洲推出 Apple Intelligence
OpenAI 以换股方式收购 Rockset,估值最高36亿
OpenAI 首席技术官 Mira Murati:预计几年内「博士级智能」的 AI 就会出现
Anthropic 最新发布的 Claude 3.5 Sonnet 模型达到了专业博士水平
Microsoft 开源公布新的针对视觉分析应用 AI 模型 Florence-2
Stability AI 获超 1 亿美元投资并任命新的 CEO
杨立昆建议学生和学术研究人员不要将 LLM 作为通往人类级 AI 的道路
月之暗面回应进军美国市场:目前没有开发和发布任何海外产品的计划
华为云盘古大模型 5.0 发布,「夸父」人形机器人现身
鸿蒙 NEXT 首次将 AI 能力融入系统,小艺升级为智能体
快手可灵大模型开放图生视频,视频续写最长可达3分钟
阿里云推出首个 AI 程序员,「分钟级」完成应用开发
环球音乐集团与 AI 音乐技术公司 SoundLabs 合作
全球 AI 要闻
苹果或将在 AI 领域与 Meta 合作,Anthropic 和 Perplexity 参与了讨论
消息称 Meta 已与 Apple 进行了讨论,将其 AI 模型与 Apple Intelligence 进行整合。这两家长期竞争对手已就将 Meta 的生成式 AI 模型整合到 Apple Intelligence 中进行的可能性进行了谈判。苹果并没有把生成式 AI 当作一个全面重塑或颠覆的机会,而是从在现有产品中添加人工智能功能(如写作建议和自定义表情符号)开始。不过有媒体认为,强调实用性可能才是人工智能被采用的关键。然后,苹果可以利用合作关系来超越自身人工智能模型的能力。因此,与 Meta 达成协议可以让苹果减少对单一合作伙伴的依赖,同时也为 Meta 的生成式人工智能技术提供了验证。目前苹果和 Meta 的谈判尚未敲定,存在失败的可能。双方均未对此事发表评论。此外,Anthropic 和 Perplexity 也讨论了与 Apple 的整合。(华尔街日报)
因欧盟规定,苹果推迟在欧洲推出 Apple Intelligence
6月23日消息,受欧盟规定影响,苹果表示,iOS 18 和 macOS Sequoia 中的三大功能今年秋季将不会向欧洲用户开放。它们包括 Mac 上的 iPhone 屏幕镜像、SharePlay 屏幕共享以及整个 Apple Intelligence 生成式 AI 功能套件。
苹果表示,这一决定与欧盟的【数字市场法案】(DMA)有关。苹果发言人 Fred Sainz 的完整声明:「两周前,Apple 发布了数百项新功能,我们很高兴能将这些功能带给世界各地的用户。我们非常希望让所有用户都能使用这些技术。然而,由于【数字市场法案】(DMA)带来的监管不确定性,我们认为今年无法向欧盟用户推出其中三项功能——iPhone Mirroring、SharePlay 屏幕共享增强功能和 Apple Intelligence。具体而言,我们担心 DMA 的互操作性要求可能会迫使我们以危及用户隐私和数据安全的方式损害我们产品的完整性。我们致力于与欧盟委员会合作,试图找到一种解决方案,使我们能够在不损害欧盟客户安全的情况下向他们提供这些功能。」
从苹果的声明中尚不清楚 DMA 的哪些方面可能导致了这一决定。(The Verge)
OpenAI 以换股方式收购 Rockset,估值最高36亿
OpenAI公司在社交平台上宣布,其收购了领先实时分析数据库公司Rockset,但OpenAI没有透露交易金额。OpenAI强调,基于Rockset提供的世界一流的数据索引和查询功能,OpenAI将在其产品中整合Rockset技术,使公司能够将其数据转化为可操作的情报。截至去年8月29日,Rockset公司共获得的融资总额在1亿美金左右,投后估值1亿-5亿美元。
OpenAI 首席技术官 Mira Murati:预计几年内「博士级智能」的 AI 就会出现
OpenAI 首席技术官米拉·穆拉蒂(Mira Murati)预测了人工智能能力的快速发展,预计在未来「几年」里,用于特定任务的「博士级智能」就会出现。
在母校达特茅斯工程学院程学院的访谈中,穆拉蒂讨论了 ChatGPT 和 DALL-E 背后的人工智能,以及正在进行的安全和道德考虑。
当被问及 ChatGPT 的智能进展时,穆拉蒂表示:「这些系统在特定任务中已经达到了人类的水平,当然在很多任务中,它们还没有达到。」她接着说,像 GPT-3 这样的模型表现出与蹒跚学步的孩子相似的智力。相比之下,像 GPT-4 这样的系统所展示的智力堪比聪明的高中生。「然后在接下来的几年里,我们将着眼于特定任务的博士级智能。所以情况正在迅速改变和提高。」(和讯网)
Anthropic 最新发布的 Claude 3.5 Sonnet 模型达到了专业博士水平
在最新的Claude 3.5 Sonnet 的技术评测报告中,Claude 3.5 Sonnet在GPQA测试中的得分为67.2%,超过了领域内专业博士的水平。这是第一次有大语言模型在GPQA测试中突破了65%的得分。GPQA(Graduate-Level Question Answering)是一个旨在评估语言模型在研究生水平科学知识上的问答能力的基准测试。它通常涉及复杂和深奥的问题,需要模型具有较高的推理和知识整合能力。普通博士在GPQA测试中的平均得分为34%;专门领域的博士在GPQA测试中的得分为65%。
Microsoft 开源公布新的针对视觉分析应用 AI 模型 Florence-2
Microsoft的 Azure AI 团队最近在 Hugging Face 上发布了新的基础AI模型Florence-2,支持各种视觉分析应用,可以配合大量使用场景,使企业无需针对单一应用开发各自的模型。
Hugging Face 地址:
https://huggingface.co/microsoft/Florence-2-large
Florence-2有两个版本(232M和771M参数),可以处理制作字幕、对象侦测、视觉分析和分割等应用,Microsoft表示,其性能与许多较大规模的视觉模型相当或更好。这个模型的特别之处在于可以同时支持各种视觉相关的功能,类似于大型语言模型,企业可以用它来一站式解决各种需要。
为了发展 Florence-2,Microsoft 创建了一个名为 FLD-5B 的视觉数据集,其中包含1.26亿张图像的54亿个注释,并使用串行到串行架构训练 Florence-2。这个设计集成了图像编码器和多模态编码解码器,使模型能够管理各种视觉应用,而无需针对特定应用进行修改。
Florence-2 的表现也相当理想,在 COCO 数据集上的零镜头字幕测试中,优于 Deepmind 的80B参数 Flamingo 模型和 Microsoft 的 Kosmos-2。Florence-2 的预训练和微调版本现已在 Hugging Face 上提供,而且采用宽松 MIT 授权,也就是可以不受限制地用于一般或商用用途。(VentureBeat)
Stability AI 获超 1 亿美元投资并任命新的 CEO
6月21日消息,知情人士称,Stability AI 已任命 Prem Akkaraju 为新任首席执行官。视觉特效公司维塔 Wētā FX 前首席执行官 Prem Akkaraju 是包括前 Facebook 总裁 Sean Parker 在内的投资者中的一员。报道称,这些投资者总共出资超过 1 亿美元,新的资金可能会缩减一些现有投资者的股份。目前,Stability AI 公司拒绝发表评论。(The Information)
杨立昆建议学生和学术研究人员不要将 LLM 作为通往人类级 AI 的道路
Yann LeCun(杨立昆),纽约大学教授、Meta 首席 AI 科学家,在推特上发表了对大型语言模型(LLM)的看法。他建议学生和学术研究人员不要将 LLM 作为通往人类级 AI 的道路。LeCun 认为,LLM 只是一个「下坡路」,因为已经有大量工程师和资源投入到 LLM 的开发中。学生和研究人员很难在 LLM 领域做出有意义的贡献。他建议,与其在 LLM 上投入时间,不如专注于探索新的 AI 架构和想法,即使是针对小问题的研究,也可能比分析现有 LLM 更有趣且更有影响力。
月之暗面回应进军美国市场:目前没有开发和发布任何海外产品的计划
月之暗面否认了其员工正在开发并准备进入美国市场的产品,包括 AI 角色扮演聊天应用程序 Ohai 和音乐视频生成器 Noisee 的传闻。同时,该公司确认正在经历新一轮融资,且腾讯可能成为新的投资者,但未提及融资的具体细节或估值。
华为云盘古大模型 5.0 发布,「夸父」人形机器人现身
在6月21日举行的华为开发者大会(HDC 2024)上,华为云正式推出盘古具身智能大模型,搭载盘古能力的人形机器人(夸父)也同步亮相。该机器人系华为云与乐聚公司人形机器人战略合作以来取得的阶段性成果。通过盘古具身智能大模型的接入,人形机器人在智能化、泛化能力上得到了显著提升,「夸父」人形机器人可流畅完成识别物品、问答互动、击掌、递水等互动演示。
盘古大模型 5.0 提供了从十亿级到万亿级不同参数规格的模型;能够理解和生成包括文本、图片、视频、雷达、红外、遥感等多种模态的内容,并且支持 10K 超高分辨率图像理解;复杂逻辑推理和数学能力的增强。盘古大模型采用 STCG 技术,专注于自动驾驶、工业制造等行业场景。
鸿蒙 NEXT 首次将 AI 能力融入系统,小艺升级为智能体
鸿蒙NEXT首次将AI能力融入系统,带来AIGC图像生成、AIGC声音修复、AI图像识别等体验。在盘古大模型5.0加持下,小艺智能体目前有23类Top场景记忆感知能力,任务成功率达90%,拥有万亿tokens的知识量,可进行处理文字、识别图像、分析文档等工作。
基于盘古大模型 5.0 加持,小艺将以 「小艺超级智能体」 的新形式出现在系统中,用户可以随时召唤华为智能助手「小艺 」,将文字、图片、文档「投喂」小艺,即可高效处理文字、识别图像、分析文档。
快手可灵大模型开放图生视频,视频续写最长可达3分钟
快手旗下大模型可灵正式推出图生视频功能,支持将任意静态图像转化为生动的5秒视频,支持添加提示词控制图像运动。可灵还同步发布视频续写功能,支持对已生成的视频一键续写和连续多次续写,单次可让视频延续约5秒,最长可生成约3分钟视频,可通过微调提示词进行续写视频创作。此外,快手可灵支持文生视频多比例选择:新增9:16和1:1视频尺寸选择。
阿里云推出首个 AI 程序员,「分钟级」完成应用开发
在阿里云上海 AI 峰会上,阿里云推出首个「AI 程序员」,具备架构师、开发工程师、测试工程师等岗位技能,能完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级完成应用开发。据介绍,该AI程序员是基于通义大模型构建的多智能体。(科创板日报)
环球音乐集团与 AI 音乐技术公司 SoundLabs 合作
环球音乐集团(UMG)与 AI 音乐技术公司 SoundLabs 合作,将为歌手和艺术家提供创建自己语音克隆模型的技术。
歌手和艺术家们可以使用 SoundLabs 的 MicDrop 功能,通过提供数据来生成他们自己的语音模型,并可以自由控制这些模型的使用权。为尊重艺术家隐私和版权,这些语音克隆不会向公众开放。MicDrop 的功能包括语音模型创建、复制歌手的歌唱声音等。MicDrop 还提供了一种语音转乐器功能,类似于能够让键盘听起来像吉他或鼓的功能。MicDrop 还提供语言转移功能,帮助艺术家在全球范围内发行任何语言的歌曲,而不会有语言障碍。
SoundLabs 由格莱美提名的制作人、作曲家和软件开发者BT创立,他曾与多位知名艺术家合作。SoundLabs 的团队还包括获奖的软件开发者Joshua Dickinson和Dr. Michael Hetrick,他们扩展了AI在音乐创作中的应用。UMG 和 SoundLabs 还共同发布了【AI音乐创作原则】,呼吁在音乐创作中负责任地使用AI技术。
由 CSDN 和 Boolan 联合主办的「2024 全球软件研发技术大会(SDCon)」将于 7 月 4 - 5 日在北京威斯汀酒店举行。
由世界著名软件架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,BAT、微软、字节跳动、小米等技术专家将齐聚一堂,共同探讨软件开发的最前沿趋势与技术实践。
大会官网: http://sdcon.com.cn/ (可点击 阅读原文 直达)