APP下载

关于ZAKER

合作

新浪科技 1小时前

阿里发布 Qwen3.5-Omni, 多模态能力超越 Gemini-3.1 Pro

新浪科技讯 3 月 31 日上午消息，阿里发布千问新一代全模态大模型 Qwen3.5-Omni，宣布在音视频理解、识别、交互等 215 项任务中取得 SOTA（性能最佳），超越 Gemini-3.1 Pro，成为目前全球最强的全模态大模型之一。

据悉，该模型拥有极强的音视频理解与实时交互能力，能够对音视频内容生成详细且可控的结构化描述，可识别语言和方言数量多达 113 种，还涌现出了音视频 Vibe Coding 能力，用户对着镜头阐述需求，就能让模型自主生成 App、网页、游戏等复杂产品代码。目前，阿里云百炼已上新 Qwen3.5-Omni 的 Plus、Flash、Light 三种 API，可广泛应用于短视频 / 直播平台、游戏、自媒体等行业。

Qwen3.5-Omni 采用混合注意力 MoE 架构，在海量文本、视觉以及超过 1 亿小时的音视频数据上进行了原生多模态预训练，可实现图片、视频、语音、文字等全模态内容的输入与输出。新模型在音视频理解、跨模态推理、Agent 方面实现了性能飞跃，在音视频理解、语音识别、多语种翻译、对话等 215 项第三方性能测试任务中取得 SOTA。

例如，在聚焦视听交互能力的 DailyOmni、QualcommInteractive、Omni Cloze 等测试中，Qwen3.5-Omni 得分领先 Gemini-3.1 Pro；在检测嘈杂环境抗干扰能力的 WenetSpeech 测试中，Qwen3.5-Omni 错误率远低于 Gemini，识别准确率极高；在考察多语言语音生成质量的 Multi-Lingual （30lang）测试中，Qwen3.5-Omni 同样显著优于 Gemini-2.5-Pro-TTS。

此外，与纯文本或图片驱动的 Vibe Coding 不同，千问还可以实现音视频编程：打开摄像头，用户对着草图口述需求，哪怕是包括复杂产品逻辑的描述，模型也能直接生成带有复杂 UI 的产品原型界面，真正实现 " 动动嘴即可编程 "。这一能力并非刻意设计，而是模型在原生多模态能力持续扩展过程中自然涌现出的结果。

目前，普通用户也可前往 Qwen Chat 免费体验，开发者和企业可通过阿里云百炼平台调用 Qwen3.5-Omni 模型，每百万 Tokens 输入不到 0.8 元，比 Gemini-3.1 Pro 的 1/10 还低。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里发布 Qwen3.5-Omni, 多模态能力超越 Gemini-3.1 Pro

宙世代

一起剪

相关阅读

129吨黄金运抵回国，普京宣布限制黄金出口

699元大邮轮，盯上月薪3000打工人

最新评论

企业资讯

热门推荐

企业资讯

热门订阅 换一批

医线Insight

银莕财经

局市

GMIF创新观察

挖贝网

中保新知

热门订阅换一批