阿里罕见真开源！大规模音频语言模型 Qwen2-Audio，还能听懂你讲话时的喜怒哀乐

2024-08-12码农

今日投票话题：你看好阿里的开源项目吗

去年阿里在github上发了几个烟雾弹，只要点赞不开源，后来看到阿里项目就当看个乐呵

今年感觉格局放开了啊，频繁的开源一些模型

这几天刚开源了一个音频语言模型Qwen2-Audio，试用了下，感觉还不错

起码是能让开发者们在做类似软件的时候，少走些弯路

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

Qwen2-Audio 是由阿里云推出的一款大规模音频语言模型。该项目包含两种音频交互模式：语音聊天和音频分析。用户可以通过语音与Qwen2-Audio进行交互，或者提供音频及文本指令进行分析。该项目还公开了两个模型：Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct，它们都支持在不同的音频处理任务上进行操作。

DEMO

实测了下，感觉效果还算是可以啊。其实就两方面功能

两种不同的音频交互模式：

1、语音聊天：用户可以自由地与 Qwen2-Audio 进行语音交互，无需文字输入；

2、音频分析：用户可在交互过程中提供音频、文字指令进行分析；

我放了两段音频进去，让他识别说话人的情绪