当前位置: 欣欣网 > 码农

Flash-VStream:AI竟然能看懂电影了!!开源视频语言模型,一个新概念诞生了

2024-07-17码农

小伙伴们有没有想过未来使用AI来看电影?🎬

这里所说的并非用像Vision Pro的产品来看,而是真正地让AI来替我们看。👀

清华联合字节跳动最新发布 开源 视频语言模型—— Flash-VStream

一个新的概念出现了: video-language model

Flash-VStream模拟人类的记忆机制,能够在实时处理极长视频流的同时,响应用户查询。

通俗易懂就是能够使用Flash-VStream去理解长视频里的内容,用户可以随时询问Flash-VStream长视频里的内容。

扫码加入AI交流群

获得更多技术支持和交流

项目简介

在线视频流是最常见的媒体形式之一,动态本质为视频理解带来很大的挑战。

传统的视频理解模型往往无法有效处理视频内容的连续性和用户问题的异步性,尤其是在需要存储和处理长时间信息时。

Flash-VStream模型通过模拟人类的记忆机制,显著降低了推理延迟和显存消耗。

Demo

团队在Hugging Face上发布了模型Demo体验效果,为此小编拿了几个视频进行了测试。

Q:what he is doing?

A:The man is sitting in front of a fire with two apples in front of him. He is holding one apple in his hand and using it to roast the other apple. (这个男人坐在火前,面前放着两个苹果。他手里拿着一个苹果,用它来烤另一个苹果。)

Q:tell me what the two girls is doing and the difference between two girls.

A:The two girls are dancing in front of a window. One of the girls is wearing a white dress, while the other is wearing a blue dress. The girl in the white dress is wearing a bow and is dancing in a more energetic way. The girl in the blue dress is also dancing, but she is not wearing a bow. (两个女孩正在窗前跳舞。其中一个女孩穿着白色连衣裙,另一个女孩穿着蓝色连衣裙。身穿白色连衣裙的少女,系着蝴蝶结,舞姿更加充满活力。穿蓝色裙子的女孩也在跳舞,但她没有戴蝴蝶结)

Q:Describe the video briefly.

A:The video shows a black and white panda bear eating bamboo in a zoo. The panda is seen with its mouth open, and the bamboo is green. The video captures the panda's natural behavior in a zoo setting. (视频显示一只黑白相间的熊猫在动物园里吃竹子。熊猫张着嘴,竹子翠绿。该视频捕捉了熊猫在动物园环境中的自然行为)

Q:Why is this video funny?

A:The video is funny because it shows a person wearing a teddy bear costume dancing in a room. The person's movements are exaggerated and silly, which adds to the humor of the video. The video captures the person's playful and lighthearted nature, making it entertaining to watch. (该视频很有趣,因为它显示一个穿着泰迪熊服装的人在房间里跳舞。人的动作夸张又傻气,增添了视频的幽默感。该视频捕捉到了这个人顽皮而轻松的天性,让人观看起来很有趣)

通过模型回答的效果能够看出部分视频理解的细节方面仍然存在偏差,但整体的视频大体主旨以及回答的详细度效果都比较好。

项目原理

模型引入了名为STAR的学习式记忆机制,STAR即空间-时间-抽象-检索,该记忆机制可压缩必要的视觉信息并以在线和实时的方式更新记忆。

Flash-VStream由两个进程执行:「帧处理器」和「问题处理器」。帧处理器负责对帧进行编码并写入内存,问题处理器负责从内存中读取并随时回答问题。

下面是传统的离线管道和人工处理管道与用于在线视频流理解的Flash-VStream框架的比较。

同时团队提出了VStream-QA,一种专为在线视频流理解而设计的新型问答基准。

并且团队进行的视频理解测试中,Flash-VStream是多个视频QA基准测试中的最先进技术。

在一个讲述「一名警察拦下了一辆由一对夫妇驾驶的汽车,但他们用枪指着他并杀死了他」的视频中,团队在 VStream-QA-Movie 上比较了不同的视频 LLM。

Flash-VStream是其中唯一成功正确理解这个长电影片段主题的模型。

机器人在野外的实时操作、监控系统的连续监控以及交互式媒体消费等等领域在未来都会用到实时视频理解技术。

Flash-VStream的技术突破在实时处理和用户交互方面迈出了关键而又重大的一步。小编期待未来Flash-VStream的进一步优化迭代!

🔗 项目链接

https://invinciblewyq.github.io/vstream-page

关注「 向量光年 」公众号

加速全行业向AI的改变

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 AGI光年 」公众号

获取每日最新咨询

更多 AI内容,尽在 www .dongaigc.com