展会信息港展会大全

阿里通义开源音频语言模型Qwen2-Audio 可直接进行语音问答
来源:互联网   发布日期:2024-08-14 08:46:02   浏览:3148次  

导读:【环球网科技综合报道】8月13日,阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。通义团队还同步推出了一套全新的音频理解模型测...

【环球网科技综合报道】8月13日,阿里通义大模型对外宣布开源Qwen2系列音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL 2024。

阿里通义开源音频语言模型Qwen2-Audio 可直接进行语音问答

Qwen2-Audio可以理解分析音乐

Qwen2-Audio是一款大型音频语言模型(Large Audio-Language Model ,LALM),具备语音聊天和音频分析两种使用模式,前者是指用户可以用语音向模型发出指令,模型无需自动语音识别(ASR)模块就可理解用户输入;后者是指模型能够根据用户指令分析音频信息,包括人类声音、自然声音、音乐或者多种信号混杂的音频。Qwen2-Audio能够自动实现两种模式的切换。Qwen2-Audio支持超过8种语言和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。

据了解,Qwen2-Audio是通义团队在音频理解模型上的新一步探索,相比前一代模型Qwen-Audio,新版模型有了更强的声音理解能力和更好的指令跟随能力。

同时,通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct,用户可以通过Hugging Face、魔搭社区ModelScope等下载模型,也可以在魔搭社区“创空间”直接体验模型能力。

赞助本站

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港