西安股票配资论坛

炒股证券公司阿里通义开源音频语言模型Qwen2-Audio

发布日期：2024-09-30 15:36 点击次数：185

8月13日炒股证券公司，记者了解到，阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。

据悉，Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准，相关论文已入选本周正在举办的国际顶会ACL 2024。

Qwen2-Audio是一款大型音频语言模型（Large Audio-Language Model ，LALM)，具备语音聊天和音频分析两种使用模式，前者是指用户可以用语音向模型发出指令，模型无需自动语音识别（ASR）模块就可理解用户输入；后者是指模型能够根据用户指令分析音频信息，包括人类声音、自然声音、音乐或者多种信号混杂的音频。Qwen2-Audio能够自动实现两种模式的切换。Qwen2-Audio支持超过8种语言和方言，如中文、英语、法语、意大利语、西班牙语、德语、日语，粤语。

根据Qwen2-Audio技术报告，Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段，依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐，接着通过SFT（监督微调）强化模型处理下游任务的能力，再通过 DPO（直接偏好优化）方法加强模型与人类偏好的对齐。

此外，通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct，用户可以通过Hugging Face、魔搭社区ModelScope等下载模型，也可以在魔搭社区“创空间”直接体验模型能力。

举报第一财经广告合作，请点击这里此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作者

一财科技

相关阅读谷歌Gemma 2系列新增20亿参数模型

谷歌发力参数量更小的大模型。

08-01 12:59 彭文生：AI规模新经济（上）

波澜壮阔的AI热潮似乎都因楚辞的“大论”而起，也似乎都因“大论”而终。

06-27 17:39 钉钉宣布对所有大模型开放，六家大模型接入钉钉

“大模型还是要去找场景。”

06-26 21:28 首个AI高考全卷评测结果发布：最高分303，数学全不及格

大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。

必读 06-19 13:49 大模型商业化迎来“下一站”，智谱AI CEO张鹏：要把想象力化为生产力

让大模型技术真正落地炒股证券公司，是每一个大模型公司必须思考的问题。

06-07 17:10 一财最热点击关闭

栏目分类

炒股证券公司 阿里通义开源音频语言模型Qwen2-Audio

发布日期：2024-09-30 15:36 点击次数：185

炒股证券公司阿里通义开源音频语言模型Qwen2-Audio