当前位置: 欣欣网 > 资讯

傅盛:OpenAI遇到了困难;多家高校联合训练首个中文大模型;北大开源复现Sora | AI头条

2024-04-08资讯

整理 | 王启隆

出品 | AI 科技大本营(ID:rgznai100)

一分钟速览新闻点!

  • 猎豹 CEO 傅盛:OpenAI 遇到了困难

  • Chinese Tiny LLM:预训练首个以中文为核心的大语言模型

  • 北大发起的开源项目 Open-Sora-Plan v1.0.0 正式发布

  • Google 考虑对人工智能搜索进行收费

  • 南洋理工 x 商汤科技推出用于统一多模态运动生成的「大运动模型」

  • 阿里巴巴推出 Qwen1.5-32B 模型

  • 斯坦福大学团队推出可以在移动设备上运行的 2B 端侧模型 Octopus v2

  • DeepMind 发布文本嵌入模型 Gecko

  • DeepMind 最新研究 Mixture-of-Depths 提高 Transformer 计算效率

  • 戴尔入场投资芯片初创公司 SiMa.ai

  • Gretel 发布全球最大的开源文本到 SQL 数据集

  • 微软通过更多存储和对大型 RAG 应用程序的支持来提升 Azure AI 搜索

  • 全球 AI 要闻

    猎豹 CEO 傅盛:OpenAI 遇到了困难

    4 月 6 日,猎豹移动 CEO 傅盛在抖音发表观点,认为 ChatGPT 取消注册限制很可能是因为 OpenAI 目前遇到了困难:一、用户增速放缓,几近下跌;二、OpenAI 面临来自 Google DeepMind 等 AI 团队的强力竞争;三、GPT-5 迟迟没有亮相,可能是因性能不足或成本过高。傅盛猜测未来 AI 变革的核心关键是找到一条「 成本高产出 」的道路,用更小的参数实现专项能力。

    Chinese Tiny LLM:预训练首个以中文为核心的大语言模型

    来自多所顶尖高校及研究机构(复旦大学、北京大学、上海交通大学、香港科技大学、滑铁卢大学、快手公司和 Vector Institute)的研究团队,联合推出了一款名为 CT-LLM(Chinese Tiny LLM)的 200 亿参数大型语言模型。 该模型标志着大型语言模型研究开始聚焦中文领域,从零开始训练,主要基于包含 8000 亿中文、3000 亿英文和 1000 亿 code tokens 的 12000 亿 tokens 语料库,尤其是针对中文数据进行了优化处理,并运用对齐技术增强了其在中文处理上的能力。

    CT-LLM 在 CHC-Bench 中文任务上表现卓越,同时通过 SFT 也能适应英文环境,挑战了以往依赖英文语料库进行大型语言模型训练的传统模式。研究团队开源了 CT-LLM 的训练流程以及大规模适用预训练中文语料库(MAP-CC),并推出了涵盖多学科难题的中文基准测试工具——CHC-Bench,旨在推动更包容、更具适应性的语言模型研究与创新。

    GitHub: https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM

    论文: https://arxiv.org/pdf/2404.04167.pdf

    北大 Open-Sora-Plan v1.0.0 正式发布

    北大-兔展 AIGC 联合实验室共同发起的复现 OpenAI Sora 的开源项目:Open-Sora-Plan v1.0.0 模型正式发布,大大提高了视频生成质量和文本控制能力。

    目前, Open-Sora-Plan v1.0.0 可以生成 10 秒、24 FPS 的 1024×1024 视频 S ora 可以生成 1 分钟高清视频) ,而且还能够生成高分辨率图 像。Open-Sora-Plan v1.0.0 模型还支持了国产 AI 芯片华为昇腾 910b 训练与推理,接下来还会支持更多国产 AI 芯片。

    GitHub: https://github.com/PKU-YuanGroup/Open-Sora-Plan

    Google 考虑对人工智能搜索进行收费

    据【金融时报】当地时间 4 月 4 日报道,谷歌正考虑对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务有史以来最大的一次变革。多年来谷歌一直提供完全由广告资助的免费消费者服务,对其搜索引擎的拟议改革将标志着谷歌首次将其核心产品都置于「付费墙」之后。(澎湃新闻)

    南洋理工 x 商汤科技推出用于统一多模态运动生成的「大运动模型」

    新加坡南洋理工大学 S-Lab 与商汤科技联合研究团队推出大型运动模型( L ar ge Motion Model,简称 LMM ),革新动画及视频制作领域的人体动作生成技术。LMM 框架集多种任务于一体,包括文本转动作和音乐转舞蹈等,打破了过去针对单一任务设计模型的局限性。

    GitHub: https://github.com/mingyuan-zhang/LMM

    论文: https://arxiv.org/pdf/2404.01284.pdf

    视频: https://www.youtube.com/watch?v=Aprm9h8lFj4

    阿里巴巴推出 Qwen1.5-32B 模型

    阿里巴巴新推 Qwen1.5-32B 语言模型,着力于性能与效率平衡,借助分组查询注意力技术,优化推理效率和性能。通过 RLHF 强化训练,对话互动能力显著提升,提供自然流畅的聊天体验。在多项基准测试中,该模型与同级竞品相比展示竞争优势,涵盖多语言理解、生成任务。Qwen1.5-32B 已验证支持 12 种外语,展现出色的多语言能力。

    GitHub: https://github.com/QwenLM/Qwen1.5

    Hugging Face: https://huggingface.co/Qwen

    斯坦福大学团队推出可以在移动设备上运行的 2B 端侧模型 Octopus v2

    近日,斯坦福大学团队推出 Octopus v2,可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 LLaMA 7B + RAG 的方案快 36 倍。

    论文: https://arxiv.org/pdf/2404.01744.pdf

    Hugging Face: https://huggingface.co/NexaAIDev/Octopus-v2

    DeepMind 发布文本嵌入模型 Gecko

    DeepMind 近日推出新型文本嵌入模型 Gecko,以其高效紧凑的设计与卓越的检索性能引人注目。该模型通过创新的两阶段知识蒸馏法,充分利用大型语言模型的能力,首先生成多元合成训练样本,继而借助 LLM 精选高质量查询-段落对并重新标注正负样本。在权威的大规模文本嵌入基准测试 MTEB 中,仅 256 维尺寸的 Gecko 就击败了所有 768 维尺寸竞品,并且 768 维版本的 Gecko 得分高达 66.31,表现可媲美体积大 7 倍、维度高 5 倍的模型。这项突破标志着 Gecko 在提高文本检索效率的同时,显著降低了计算资源需求。

    论文: https://arxiv.org/pdf/2403.20327.pdf

    DeepMind 最新研究 Mixture-of-Depths 提高 Transformer 计算效率

    Google DeepMind 最新力作 Mixture-of-Depths 在开发者社区引发热议,已登上 HackerNews 热榜。

    该论文的核心思想是提出了一种全新的 Transformer 架构优化方法,允许模型动态分配 FLOPs(或计算资源)至序列中的特定位置,以适应不同层和模型深度的需求。论文通过设置一个预先定义好的参数 k,限制每层中参与自注意力机制和 MLP 计算的令牌数量,从而控制总体计算预算。网络采用 top-k 路由机制来决定需要处理的令牌。

    经过这种训练方式的模型能有效地学习到动态分配计算资源,并在保持与基准模型相同性能的前提下,减少每次前向传播所需的 FLOPs,同时在训练后采样阶段,模型步进速度可提升高达 50%。这表明,在大规模语言模型推理过程中,无论是预填充阶段还是解码阶段,输入输出的令牌并不需要所有参数都参与计算,而是应根据实际情况动态参与计算,从而实现更高效、更智能的资源分配。

    论文: https://arxiv.org/abs/2404.02258

    戴尔入场投资芯片初创公司 SiMa.ai

    硅谷边缘人工智能芯片公司 SiMa.ai 昨日宣布成功募集了 7000 万美元的新一轮融资,进一步突显市场对边缘 AI 技术的强劲兴趣及投资趋势。值得注意的是,此次融资中包含戴尔科技资本的战略投资,这是戴尔科技资本过去一年中唯一涉足硬件科技领域的投资项目,显示了其对 SiMa.ai 技术路径和边缘 AI 发展前景的高度认可。通过整合 SiMa.ai 的软件优先、易于部署和管理的边缘 AI 解决方案,戴尔有望将其产品线扩展至新的企业应用领域,并利用不断扩大的市场需求,发掘边缘人工智能带来的商业潜能。

    Gretel 发布全球最大的开源文本转 SQL 数据集

    人工智能合成数据公司 Gretel 日前公布一项重大进展,发布了全球最大规模的开源文本转 SQL 数据集,旨在加快人工智能模型训练进程,并在全球范围内开启企业应用新可能。该数据集包含超过 10 万条覆盖 100 个行业领域的精细合成文本转 SQL 样本,现依据 Apache 2.0 许可在 Hugging Face 平台开放获取。此举标志着 Gretel 致力于赋能开发者构建强大的 AI 模型,使其能够理解和转化自然语言查询为 SQL 查询,有力连接业务用户与复杂数据源,为解决二者间的交互难题提供有力支持。

    Hugging Face: https://huggingface.co/datasets/gretelai/synthetic_text_to_sql

    微软通过更多存储和对大型 RAG 应用程序的支持来提升 Azure AI 搜索

    微软 Azure AI 搜索服务近日升级,大幅提升矢量和存储容量,使开发者在构建生成式 AI 应用时能以更经济的成本享用更大规模的数据服务。此次更新不仅将矢量索引扩大 11 倍、存储容量提升 6 倍,并增强了索引和查询处理效率,保证大规模应用(如数十亿级矢量索引)运行时的速度与性能不受影响。该优化将普惠订阅 Azure AI 搜索基础和标准版的全球多个国家和地区用户,包括美国、欧洲多国、亚洲及澳大利亚等地。同时,Azure AI 搜索已拓展对合作方 OpenAI 应用的支持,助力企业实现更精准、个性化的 AI 应用体验。


    4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「 全球机器学习技术大会 」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。 欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。