阿裏罕見真開源！大規模音訊語言模型 Qwen2-Audio，還能聽懂你講話時的喜怒哀樂

2024-08-12碼農

今日投票話題：你看好阿裏的開源計畫嗎

去年阿裏在github上發了幾個煙霧彈，只要點贊不開源，後來看到阿裏計畫就當看個樂呵

今年感覺格局放開了啊，頻繁的開源一些模型

這幾天剛開源了一個音訊語言模型Qwen2-Audio，試用了下，感覺還不錯

起碼是能讓開發者們在做類似軟體的時候，少走些彎路

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

Qwen2-Audio 是由阿裏雲推出的一款大規模音訊語言模型。該計畫包含兩種音訊互動模式：語音聊天和音訊分析。使用者可以透過語音與Qwen2-Audio進行互動，或者提供音訊及文本指令進行分析。該計畫還公開了兩個模型：Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct，它們都支持在不同的音訊處理任務上進行操作。

DEMO

實測了下，感覺效果還算是可以啊。其實就兩方面功能

兩種不同的音訊互動模式：

1、語音聊天：使用者可以自由地與 Qwen2-Audio 進行語音互動，無需文字輸入；

2、音訊分析：使用者可在互動過程中提供音訊、文字指令進行分析；

我放了兩段音訊進去，讓他辨識說話人的情緒