當前位置: 妍妍網 > 碼農

阿裏罕見真開源!大規模音訊語言模型 Qwen2-Audio,還能聽懂你講話時的喜怒哀樂

2024-08-12碼農

今日投票話題:你看好阿裏的開源計畫嗎

去年阿裏在github上發了幾個煙霧彈,只要點贊不開源,後來看到阿裏計畫就當看個樂呵

今年感覺格局放開了啊,頻繁的開源一些模型

這幾天剛開源了一個音訊語言模型Qwen2-Audio,試用了下,感覺還不錯

起碼是能讓開發者們在做類似軟體的時候,少走些彎路

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

Qwen2-Audio 是由阿裏雲推出的一款大規模音訊語言模型。該計畫包含兩種音訊互動模式:語音聊天和音訊分析。使用者可以透過語音與Qwen2-Audio進行互動,或者提供音訊及文本指令進行分析。該計畫還公開了兩個模型:Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct,它們都支持在不同的音訊處理任務上進行操作。

DEMO

實測了下,感覺效果還算是可以啊。其實就兩方面功能

兩種不同的音訊互動模式:

1、語音聊天:使用者可以自由地與 Qwen2-Audio 進行語音互動,無需文字輸入;

2、音訊分析:使用者可在互動過程中提供音訊、文字指令進行分析;

我放了兩段音訊進去,讓他辨識說話人的情緒

測下來感覺還是挺好玩的,用在一些計畫裏也很不錯

架構

整體表現

計畫連結:

https://github.com/QwenLM/Qwen2-Audio

試用連結:

https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 向量光年 」公眾號

加速全行業向AI轉變

關註「 AGI光年 」公眾號

獲取每日最新資訊

更多AI資訊,盡在www.dongaigc.com