整理 | 王轶群
出品 | AI 科技大本营(ID:rgznai100)
一分钟速览新闻点!
AI 视频生成初创公司 Runway 宣布将推出新的视频生成模型 Gen-3 Alpha
DeepMind 正在开发 AI 技术,利用视频的原始像素生成同步音轨
DeepSeek-Coder-V2 正式上线并开源
Google 在印度推出适用于 Android 的 Gemini 应用,支持英语及九种本地语言
人工智能教父 Geoffrey Hinton 加入英国绿色材料初创公司 CuspAI 顾问委员会
研究人员表示 GPT-4 已经通过了图灵测试
ChatGPT 时隔两周再次出现重大故障
Constructor 以 5.5 亿美元的估值筹集了 2500 万美元的 B 轮融资
Adobe 升级 Acrobat AI 聊天机器人,添加多文档分析、图像生成功能
微软率先向Copilot+设备推送 Win11 24H2 更新
全球 AI 要闻
AI 视频生成初创公司 Runway 宣布将推出新的视频生成模型 Gen-3 Alpha
当地时间6月17日,AI视频生成初创公司Runway在官网宣布,即将推出新的视频生成模型Gen-3 Alpha,该模型可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。
目前Gen-3还未开放给公众试用,但在官网的博客中,Runway秀出了数十个精彩的生成视频,无论是光线、色彩、运动轨迹、人物细节都非常逼真,有行业人士表示一些视频是Sora级别的质量。
Runway表示,Gen-3 Alpha是即将推出的一系列模型中的首个,这一系列模型是在为大规模多模态训练而构建的新基础设施上训练的。Gen-3 Alpha 经过视频和图像联合训练,将为 Runway 的文本转视频、图像转视频和文本转图像工具、现有控制模式(如运动画笔、高级相机控制、导演模式)以及即将推出的工具提供支持,以更精细地控制结构、风格和运动。
DeepMind 正在开发 AI 技术,利用视频的原始像素生成同步音轨
谷歌人工智能研究实验室 DeepMind 表示正在开发用于为视频生成配乐的人工智能技术。DeepMind 在其官方博客上发表的一篇文章中表示,它认为 V2A(「视频转音频」的缩写)技术是 AI 生成媒体拼图的重要组成部分。虽然包括 DeepMind 在内的许多组织都开发了视频生成 AI 模型,但这些模型无法创建与其生成的视频同步的音效。DeepMind 写道:「视频生成模型正在以惊人的速度发展,但许多当前系统只能生成无声输出。V2A 技术 [可能] 成为一种让生成的电影栩栩如生的有前途的方法。」
DeepMind 的 V2A 技术将背景音乐的描述(例如「水下脉动的水母、海洋生物、海洋」)与视频配对,以创建与视频中的人物和语调相匹配的音乐、音效甚至对话,并通过 DeepMind 的反深度伪造 SynthID 技术进行水印处理。DeepMind 表示,驱动 V2A 的 AI 模型(一种扩散模型)是在声音和对话记录以及视频片段的组合上进行训练的。DeepMind 表示:「通过对视频、音频和附加注释进行训练,我们的技术学会将特定的音频事件与各种视觉场景联系起来,同时对注释或记录中提供的信息做出响应。」训练数据是否受版权保护以及数据创建者是否知晓 DeepMind 的工作,目前还不得而知。(TechCrunch)
DeepSeek-Coder-V2 正式上线并开源
6月17日晚,DeepSeek-Coder-V2,正式上线和开源。 据官方介绍,DeepSeek-Coder-V2 沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,在编码、数学的多个榜单上位居全球第二,介于 GPT-4o 和 GPT-4-Turbo 之间。
(图片来源:DeepSeek 官方)
官方表示,DeepSeek-Coder-V2 还具有良好的通用性能,在中英通用能力上位列国内第一梯队。
据介绍,开源模型包含236B和16B两种参数规模:
DeepSeek-Coder-V2:总参 236B(即官网和 API 版模型),单机 8*80G 可部署,单机 8*80G 可微调(需要技巧)
DeepSeek-Coder-V2-Lite:总参 16B,激活 2.4B,支持 FIM,代码能力接近 DeepSeek-Coder-33B(V1),单卡 40G 可部署,单机 8*80G 可训练。
模型下载:
https://huggingface.co/deepseek-ai
代码仓库:
https://github.com/deepseek-ai/DeepSeek-Coder-V2
技术报告:
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
Google 在印度推出适用于 Android 的 Gemini 应用,支持英语及九种本地语言
6月18日,谷歌宣布在印度推出适用于 Android 的 Gemini 应用,支持英语和其他九种语言:印地语、孟加拉语、古吉拉特语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、泰卢固语和乌尔都语。
Gemini 应用和Gemini Advanced均支持 9 种印度语言,让用户可以访问 Google 最强大的 AI 模型,帮助更多人以自己喜欢的语言获取信息和完成任务。此外,谷歌表示还将解锁 Gemini Advanced 中的新功能,例如新的数据分析功能和文件上传,并推出在 Google Messages 中与 Gemini 聊天的功能,首先支持英语。
谷歌表示,用户要在 Android 上访问 Gemini,需下载Gemini 应用或通过 Google Assistant 选择加入。在 iOS 上,Gemini 访问将在未来几周内直接从Google 应用推出。
谷歌表示将 Gemini 1.5 Pro 的功能引入到 Gemini Advanced。扩展的容量为 Gemini Advanced 解锁了新功能:
文档上传:上传多个大型文档(总计最多 1,500 页)或汇总 100 封电子邮件。然后,Gemini Advanced 可以提供快速摘要、个性化反馈和可操作的见解,从而节省用户的时间并提高用户的工作效率。
数据分析:通过上传电子表格(Google 表格、CSV、Excel)处理复杂的数据分析任务。Gemini Advanced 现在可以清理、探索、分析和可视化用户的数据,将其转换为交互式图表和图形。
谷歌还强调:「与往常一样,隐私是重中之重。Gemini 会将用户的文件保密,并且不会使用它们来训练我们的模型。」
人工智能教父 Geoffrey Hinton 加入英国绿色材料初创公司 CuspAI 顾问委员会
总部位于剑桥的 CuspAI 正在开发用于设计新材料的人工智能技术,该公司筹集了 3000 万美元的种子资金,并已将 Geoffrey Hinton 纳入其顾问委员会
前谷歌人工智能研究员将与 CuspAI 合作,该公司已筹集 3000 万美元,用于利用人工智能设计的材料应对气候变化。CuspAI 是一家开发新材料设计算法的英国初创公司,在其首轮融资中筹集了 3000 万美元,并招募了人工智能先驱 Geoffrey Hinton 加入其顾问委员会。
CuspAI 在6月18日的一份声明中表示,该公司利用生成式人工智能和分子模拟作为材料「搜索引擎」。Hinton 是一位计算机科学家,经常被称为「人工智能教父」之一,自去年离开 Alphabet Inc. 旗下的谷歌以来,他一直在精挑细选自己的顾问。(彭博社)
研究人员表示 GPT-4 已经通过了图灵测试
据报道,OpenAI 去年 3 月份推出的大语言模型 GPT-4,在研究人员所进行的实验中的表现虽然还不及人类参与者的平均水平,但已达到了图灵测试的通过标准。而最终的结果表明,GPT-4 在 54% 的时间里被误认为是人类,此前推出的GPT-3.5 则是在 50% 的时间里被误认为是人类,没有大语言模型或神经网络支持的 ELIZA,则是在 22% 的时间里被误认为是人类。当时并未发布 GPT-4o,如果参与测试,被误认为人类的结果可能更高。
图灵测试 "由计算机科学家阿兰·图灵于 1950 年首次提出,被称为 "模仿游戏",用于判断机器显示智能的能力是否与人类无异。要想通过图灵测试,机器必须能够与人交谈,并骗得对方以为它是人类。(Live Science)
ChatGPT 时隔两周再次出现重大故障
6 月 17 日,OpenAI 的 ChatGPT 出现故障,用户报告无法应答问题,展示错误答案。OpenAI 确认问题并调查故障率偏高。至 17:00,所有系统恢复运转,用户报错频率下降。ChatGPT 3.5 和 ChatGPT 4 能生成包括图像的答案。
Constructor 以 5.5 亿美元的估值筹集了 2500 万美元的 B 轮融资
总部位于旧金山的 Constructor 是一家面向企业电子商务公司的人工智能产品发现和搜索平台,该公司已完成 2500 万美元的 B 轮融资。Sapphire Ventures(投资了 Alation 和 FloQast)领投了此轮融资,现有投资者 Silversmith Capital Partners 也参与其中。此轮融资使该公司的估值达到 5.5 亿美元,该公司筹集的总资金为 8500 万美元。(Tech Funding News)
Adobe 升级 Acrobat AI 聊天机器人,添加多文档分析、图像生成功能
Adobe 的 Acrobat PDF 编辑器将从明天开始推出新的 AI 功能,包括图像生成器。AI助手将支持同时分析多个文档,并扩展对PDF以外文件类型的支持。该公司坚称,它永远不会访问用户数据来训练任何 AI 模型。
Adobe 宣布对其 PDF 编辑软件 Acrobat 中的 AI Assistant 功能进行重大升级。此次更新是继 2 月份推出的 Assistant 之后进行的,当时 Assistant 推出了 AI 生成的摘要和可以回答有关大量文档内容问题的聊天机器人。从6月18日开始,Adobe 将增强这个聊天机器人的功能,增加同时分析和查询多个文档的能力。
Acrobat 还获得了由该公司 Firefly 模型驱动的AI 图像生成器。Adobe 已经在 Photoshop 和 Illustrator 中拥有一套由 AI 驱动的生成式编辑功能,并且还将这些功能引入 Acrobat。用户将能够从图像中删除背景或直接在现有 PDF 文档中进行细微更改。Adobe 表示,其生成式 AI 模型「对工作来说是安全的」,这意味着它们不会侵犯用户的隐私或创建可能影响品牌形象的图像。(Android Authority)
微软率先向Copilot+设备推送 Win11 24H2 更新
微软表示,Windows 11 的 24H2 版本目前位于发布预览频道,且「仅适用于 Copilot+ PC 设备」。微软将 Windows 的未来划分为两个用户群体:拥有 AI 驱动的 Copilot+ PC 的用户和没有该 PC 的用户。微软现在表示,最新版本的 Windows 11(即 Windows 11 版本 24H2)将仅提供给拥有 Copilot+ PC 的用户。微软于当地时间6月15日表示,该公司现已恢复向发布预览频道推出 Windows 11 版本 24H2,版本号为 26100.863。但在一份支持说明中,微软补充道:「重要提示:Windows 11 版本 24H2 仅适用于 Copilot+ PC 设备。」
除了游戏方面的修复,微软还将 Copilot 功能从任务栏分离,使其变为一个可单独添加或移除的应用图标。人工智能功能仍然深度集成于系统之中,例如 Copilot+ 设备内置的神经网络处理单元 (NPU) 可以帮助用户在「画图」和「照片」等应用中添加或移除图像背景。
消息人士透露,微软仍计划在 9 月底或 10 月初向使用英特尔和 AMD 处理器的电脑推送 Windows 11 24H2 的正式更新。目前该更新也可以在内部测试计划频道中获取,但仍存在一些潜在性能问题,例如画面卡顿和帧率下降,建议用户谨慎更新。(PCWorld、IT 之家)
由 CSDN 和 Boolan 联合主办的「2024 全球软件研发技术大会(SDCon)」将于 7 月 4 - 5 日在北京威斯汀酒店举行。
由世界著名软件架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,BAT、微软、字节跳动、小米等技术专家将齐聚一堂,共同探讨软件开发的最前沿趋势与技术实践。
大会官网: http://sdcon.com.cn/ (可 点击 阅读原文 直达 )