Qwen 版 Banana 来了!
刚刚,Qwen 推出了新图像编辑模型—— Qwen-Image-Edit-2509。
不仅支持多图融合,提供 " 人物 + 人物 "," 人物 + 商品 "," 人物 + 场景 " 等多种玩法,还增强了人物、商品、文字等单图一致性。
图像编辑之余,Qwen 还开源了端到端全模态模型Qwen3-omni,表现也可圈可点。既可当语音翻译助手,还能立不同的人设,甚至支持方言输出。
下面具体来看。
支持多图输入
新图像编辑的首要更新就是支持了多图输入。
先看一个 " 人物 + 人物 " 生成结婚照的例子。
输入两张图片:
下面轮到 " 人物 + 物体 " 了,我把它称为最快拥有奢侈品包包和豪车的方式。
除了真实人物,生成卡通玩偶、文创也是分分钟的事啦。
1 个物品太简单了,咱们再换个有 14 只猫的图片试一下。
除了图像方面,新模型还专门增强了文字一致性,支持了包括字体类型编辑、字体颜色编辑和字体材质编辑。
效果是这样滴:
只有关键点也不耽误出图,无论男女、无论古代还是现代、无论什么穿着,Qwen 都能统统搞定。
Qwen 不仅在图像编辑上表现优异,它还开源了端到端、全模态大模型Qwen3-omni,不仅能够无缝处理文本、音频、图像和视频等多种输入形式,还能边生成文字边实时合成语音。
跨模态的领先性能:在 36 项音频及音视频基准测试中,Qwen3-omni 斩获 32 项开源 SOTA 与 22 项总体 SOTA,超越 Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe 等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到 SOTA 水平。
效果 be like:
不仅是实时翻译助手,还能直接总结网页内容,然后用你所需要的语言输出。
更快响应:端到端音频对话延迟低至 211ms,视频对话延迟低至 507ms。
长音频:支持长达 30 分钟音频理解。
个性化:支持 system prompt 随意定制,可以修改回复风格,人设等。
比如广东幼儿园老师或是四川女汉子。
咦,那么问题来了,这些方言是否标准噻?
工具调用:支持 function call,实现与外部工具 / 服务的高效集成。
开源通用音频 Captioner:开源 Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频 caption 模型,填补开源社区空白。
不仅能分析音乐风格,还能推理数学题,甚至还能当起语音助手唤醒其他应用。
这花里胡哨的功能真是令人眼花缭乱,感兴趣的读者赶紧去试试吧。
参考链接:
[ 1 ] https://huggingface.co/Qwen/Qwen-Image-Edit-2509
[ 2 ] https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
[ 3 ] https://github.com/QwenLM/Qwen3-Omni
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见