本文来自「 」,报告深入分析了Sora的各项能力、采用的技术路线和创新性的工作。我们认为Sora是将之前的研究工作上进行了很好的综合,并在强大的算力、工程能力以及GPT和DALL·E模型技术积累下诞生的。
随着OpenAI将这种具有开创性的技术路径走通,国内模型和应用厂商有望快速迭代出类Sora的视频生成模型和应用产品。
Sora的突破可以概括为以下几点:
➢ 从生成效果看,突破此前视频生成模型的时长限制,能够生成60s时长、分辨率1080p的视频,可用性极高。
➢ 从技术路线看,依旧遵从LLM范式「大力出奇迹」,通过patches向量化与transformer架构结合,使得训练数据能够使用大小、尺寸、分辨率不同的视频,能够让模型学习到视频的规律乃至世界的规律;使用GPT生成prompt,在训练和推理过程中解决了模态之间的对齐问题,大大提升了生成效果。
➢ 从产业发展看,Sora通用性极强,有望统一视频生成生态;能够进一步赋能与促进下游应用发展,未来有望成为真正的「世界模拟器」 。
Sora 的诞生无异是产业的里程碑,以其为代表的「多模型协同」方式是接近 AGI 的可行道路 。与 Gemini 这样的多模 态模型不同, Sora 的核心能力依旧在视频生成领域,且在推理时需要调用 GPT 的能力重述 prompt 。这种方式可能不如 Gemini 符合直觉,但效果非常显著,大大加速了产业走向 AGI 的过程。
Sora 代表 LLM 的通用和涌现范式在视频领域的成功复现,因此算力依旧是模型与应用厂商布局的关键 。通过巧妙的 patches 嵌入方法, Sora 能够运用高效的 Transformer 架构在海量的视频上进行训练,因此也涌现了模拟现实世界的能 力。在其他技术路径的模型获得更好的效果之前,这种「大力出奇迹」的训练方式将依旧是产业的主流,算力需求将持续迎来更大的爆发。
Sora 可能成为视频生成领域的 Base Model ,模型层的竞争格局可能走向收敛 。相比其他轻应用, Sora 的生成时长更 长、质量更高,能够完全替代这些轻应用。因此在多数场景下, Sora 都能取代其他的生成模型和应用,最终使视频模 型格局走向收敛。
GPU技术篇
更新提醒:「 」和「 」已经更新发布,还没有获取的读者,请在点击「原文链接」在微店留言获取 ( PDF阅读版本 )。
转载申明:转载 本号文章请 注明作者 和 来源 ,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多 架构相关技术 知识总结请参考「 架构师全店铺技术资料打包 (全) 」相关电子书( 41本 技术资料打包汇总详情 可通过「 阅读原文 」获取)。
全店内容持续更新,现下单「 架构师技术全店资料打包汇总(全) 」一起发送「 」 和「 」 pdf及ppt版本 ,后续可享 全店 内容更新「 免费 」赠阅,价格仅收 249 元(原总价 439 元)。
温馨提示:
扫描 二维码 关注公众号,点击 阅读原文 链接 获取 「 架构师技术全店资料打包汇总(全) 」 电子书资料详情 。