当前位置: 欣欣网 > 码农

阿里罕见真开源!大规模音频语言模型 Qwen2-Audio,还能听懂你讲话时的喜怒哀乐

2024-08-12码农

今日投票话题:你看好阿里的开源项目吗

去年阿里在github上发了几个烟雾弹,只要点赞不开源,后来看到阿里项目就当看个乐呵

今年感觉格局放开了啊,频繁的开源一些模型

这几天刚开源了一个音频语言模型Qwen2-Audio,试用了下,感觉还不错

起码是能让开发者们在做类似软件的时候,少走些弯路

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

Qwen2-Audio 是由阿里云推出的一款大规模音频语言模型。该项目包含两种音频交互模式:语音聊天和音频分析。用户可以通过语音与Qwen2-Audio进行交互,或者提供音频及文本指令进行分析。该项目还公开了两个模型:Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct,它们都支持在不同的音频处理任务上进行操作。

DEMO

实测了下,感觉效果还算是可以啊。其实就两方面功能

两种不同的音频交互模式:

1、语音聊天:用户可以自由地与 Qwen2-Audio 进行语音交互,无需文字输入;

2、音频分析:用户可在交互过程中提供音频、文字指令进行分析;

我放了两段音频进去,让他识别说话人的情绪

测下来感觉还是挺好玩的,用在一些项目里也很不错

架构

整体表现

项目链接:

https://github.com/QwenLM/Qwen2-Audio

试用链接:

https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 向量光年 」公众号

加速全行业向AI转变

关注「 AGI光年 」公众号

获取每日最新资讯

更多AI信息,尽在www.dongaigc.com