新浪科技讯 3 月 31 日上午消息,阿里发布千问新一代全模态大模型 Qwen3.5-Omni,宣布在音视频理解、识别、交互等 215 项任务中取得 SOTA(性能最佳),超越 Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。
据悉,该模型拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别语言和方言数量多达 113 种,还涌现出了音视频 Vibe Coding 能力,用户对着镜头阐述需求,就能让模型自主生成 App、网页、游戏等复杂产品代码。目前,阿里云百炼已上新 Qwen3.5-Omni 的 Plus、Flash、Light 三种 API,可广泛应用于短视频 / 直播平台、游戏、自媒体等行业。
Qwen3.5-Omni 采用混合注意力 MoE 架构,在海量文本、视觉以及超过 1 亿小时的音视频数据上进行了原生多模态预训练,可实现图片、视频、语音、文字等全模态内容的输入与输出。新模型在音视频理解、跨模态推理、Agent 方面实现了性能飞跃,在音视频理解、语音识别、多语种翻译、对话等 215 项第三方性能测试任务中取得 SOTA。
例如,在聚焦视听交互能力的 DailyOmni、QualcommInteractive、Omni Cloze 等测试中,Qwen3.5-Omni 得分领先 Gemini-3.1 Pro;在检测嘈杂环境抗干扰能力的 WenetSpeech 测试中,Qwen3.5-Omni 错误率远低于 Gemini,识别准确率极高;在考察多语言语音生成质量的 Multi-Lingual (30lang) 测试中,Qwen3.5-Omni 同样显著优于 Gemini-2.5-Pro-TTS。

目前,普通用户也可前往 Qwen Chat 免费体验,开发者和企业可通过阿里云百炼平台调用 Qwen3.5-Omni 模型,每百万 Tokens 输入不到 0.8 元,比 Gemini-3.1 Pro 的 1/10 还低。