关于ZAKER 合作
智东西 17分钟前

阿里一口气发 7 款大模型,这或是最被低估的 AI “杀手锏”

智东西

作者 | 李水青

编辑 | 漠影

智东西 9 月 24 日杭州报道,今天,在 2025 杭州云栖大会上,阿里一口气发布了 7 款大模型,其中重磅推出的通义万相 Wan2.5-preview,首次实现音画一体视频生成等功能,成为阿里迄今为止最强的全模态视觉生成大模型。

阿里云智能集团首席技术官、通义实验室负责人周靖人在会上谈道,通义万相 Wan2.5-preview 视频生成模型首次采用原生多模态架构,涵盖文生视频、图生视频、文生图和图像编辑四大模型,迈入电影级全感官叙事时代。

智东西第一时间对该模型进行体验,发现 Wan2.5-preview 具备超出想象的文本理解和推理能力,并且生成的语音能够精准匹配人物嘴型。

比如,下面这个有声视频是仅输入一段文字后 Wan2.5-preview 一次性生成的。不得不说,国产视频生成模型真的已经是 Next level 了。

Wan2.5-preview 生成的视频

当下,市面上同类模型已有一些支持 " 图 + 音频 " 驱动生成视频,Wan2.5-preview 在输入侧全面支持图、文、音或组合形式,有望降低使用门槛,在数字人、电影创作、远程教育等多个领域都有想象空间。

阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭说,大模型将是下一代的操作系统。而随着计划中的世界模型之后面世,通义万相也有望成为 AI 视频领域的操作系统,将允许任何人用自然语言,创造无限多的视频内容及相关应用。

即日起,用户可在阿里云百炼平台调用 API,或在通义万相官网直接体验。

通义万相官网体验地址:

https://tongyi.aliyun.com/wanxiang/generate

阿里云百炼 API:

https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

一、首次实现高清有声视频一键生成,背后原生多模态架构亮了

本次,Wan2.5-Preview 全面提升了视频生成、图像生成、图像编辑三大核心能力,并且首次原生支持音画同步。

聚焦大家尤为关注的视频生成方面,Wan2.5-preview 在时长、画质、操控、多模态等多个方面都实现 显著升级:

1、更长时长。Wan2.5-Preview 视频生成时长从 5 秒提升至 10 秒,单次生成可实现更完整的剧情故事。

2、更清晰画质。Wan2.5-Preview 支持 24 帧每秒的 1080P 高清视频生成,满足电影级场景的创作需求。

3、更强操控。Wan2.5-Preview 模型指令遵循能力进一步提升,视频生成可理解运镜等复杂指令,可实现一键人物变身等图像编辑任务。

4、音画同步生成。Wan2.5-Preview 支持文本、图像、视频、音频几乎全模态的输入和输出,视频生成告别 " 哑剧 " 时代。

背后,靖人透露,Wan2.5-Preview 在技术架构上实现了重大更新——首次采用原生多模态架构——在国内第一个将声音、图像、文本作为语料去做模型训练,从而实现同一套框架下支持理解和生成等多种任务。

这代表了技术演进的一个更高阶段。相比于非原生架构带来的信息损耗、误差累计、多模交互弱等局限,原生多模态架构如同精通多学科的 " 通才 ",能够涌现出更强的跨模态推理及生成能力。

比如,基于原生多模态架构的 Wan2.5-Preview 能够实现更具创造性的生成,更深刻地理解抽象语义并将其转化为视觉元素,其可以根据一段复杂的、充满比喻的诗歌,生成一幅意境匹配的图片。

在图像生成方面,Wan2.5-Preview 在美学质感、稳定文字生成、图表直接生成、指令遵循等方面全面升级;此外,该模型在图像编辑能力上,还支持丰富指令编辑任务,可以保持视觉元素 ID 一致性。

二、音画同步、复杂运镜效果惊艳,谷歌 Veo 3 不香了?

再来看看具体案例效果,用户只需要在对话框中输入提示词,Wan2.5-preview 就能生成对应的画面,并生成精准匹配的人声、环境音效和背景音乐等多种声音。

同时,Wan2.5-preview 也支持输入一段音频作为参考,来驱动文字或图片生成音画同步的视频。此外,Wan2.5-preview 在图片编辑、文生图体验上也更加稳定。

从以下比较有代表性的案例,我们能直观看到 Wan2.5-Preview 的生成效果。

1、从电影情节到产品播报,生成人声精准匹配视频

如下所示,当输入以下一个围绕 " 白人女性拆开礼物 " 的提示词,Wan2.5-Preview 就能生成以下栩栩如生的视频,不仅光影和人物的表情细节非常逼真,提示词要求的钢琴声和女声也比较准确。

提示词 1:

暖色调,日光,柔光,侧光,来自窗户的自然光线,近景特写镜头,中心构图。一位年轻的外国白人女性坐在客厅地毯上,浅棕色长发垂肩,脸上带着温暖微笑,眼神明亮,双手正缓缓打开一个带有白色圆点图案的深棕色礼物盒。她的动作轻柔,指尖微微颤动,流露出期待与惊喜。盒子开启瞬间,内部闪出微弱反光,映在她的眼眸中。背景中一棵高大的圣诞树装饰着彩色小灯、金色铃铛和红色丝带,树下堆满包装精美的礼物盒,壁炉上方悬挂着编织花环,窗帘半开,透入清晨柔和日光。伴随轻微的纸张摩擦声和远处隐约传来的钢琴版《Jingle Bells》旋律,她轻声说道:"Oh, this is perfect… thank you so much." 室内环境音包含木柴燃烧的噼啪声与窗外轻柔风声。

再来看看更复杂的多人物互动,当输入围绕 " 新郎向新娘求婚 " 的提示词,Wan2.5-Preview 也能比较精准地生成婚礼情境和两人的互动,具有大片般美感,婚礼进行曲和新郎的话匹配较为准确。

提示词 2:

纪实摄影风格,中景,日光,柔光,侧光,暖色调,中心构图。镜头平拍一位外国新郎的半身,他身穿剪裁合体的黑色西装,打着深色领带,胸前别着一朵鲜艳的红色玫瑰胸花。他约三十岁,浅棕色短发整齐梳理,蓝色眼眸含笑,嘴角上扬,露出温柔而真挚的笑容。他正缓缓将一枚戒指套入新娘的手指,动作轻柔专注。新娘的手纤细白皙,戴着蕾丝手套,指尖微微颤动,头纱由微风轻轻掀起一角,薄纱随气流飘动。背景为白色石墙,墙上装饰着藤蔓绿植与白色玫瑰花束,阳光从左侧窗户斜射入内,形成柔和的侧光光影,照亮两人交握的手与脸庞。伴随着婚礼进行曲的轻柔小提琴旋律,新郎低声说道:"I now pronounce you my forever." 背景可听见远处宾客的轻微低语与鸟鸣声。

Wan2.5-Preview 同样支持以 " 图 + 音 + 文 " 为输入进行视频生成,这样提示词文本可以写得更简洁一点。如下所示,即使是极快语速的 Rap,Wan2.5-Preview 也能将人的口型和声音匹配得看不出破绽。

提示词 3:

在一个充满未来感的虚拟现实游戏世界,一位玩家戴着 VR 头盔和动作捕捉服,站在一个巨大的、由代码和像素流构成的竞技场中央。他以极快的语速念出这段 RAP:" 万相出手就是未来代码,声波穿透屏幕像魔法,音画同步从来不跳闸,节奏踩着像素坐标,精准指令像开外挂 "。电影感光线,超高细节。音频部分只有由 rap 构成。

输入 " 图 + 文 " 提示词也是常见的场景,如下所示,Wan2.5-Preview 能够凭借强大的多模态推理能力,创作出图片中原本没有的虎鲨背鳍,并生成深海低频嗡鸣、声呐扫描音、水流动响等多种逼真的声音。

提示词 4:

一名身穿黑色潜水服、佩戴全脸面罩的男性特工在水下缓慢下潜,右手拇指持续按压 BC 阀。他身体略微前倾,头部随手电光束方向转动,光束扫过前方,显现出尸骸碎骨,骨骼在水流中轻微晃动。声呐绿波以每秒 2 米的速度从远处向近处推进,穿过水体并产生涟漪状扰动。虎鲨背鳍从画面上方切入光柱,垂直向下移动后消失。特工嘴唇开合,说出:’太危险了’,语气紧绷克制,语速短促,音色因氦氧混合气震颤泛出金属质感。4 ℃海水使气泡迅速压缩变形,呈扁平状上升并破裂。背景持续传来深海低频嗡鸣、声呐扫描音、水流动响、气泡爆裂声及呼吸器震颤声。

2、从跑马到拍击网球,模拟真实世界的音效为视频增色

真实世界的声音赋予视频更强的冲击力。除了人声匹配精准,Wan2.5-Preview 能够在视频中生成贴合场景的音效。

如下所示,当围绕 " 骑士骑马运动 " 输入一段提示词,Wan2.5-Preview 不仅能够生成极具动感的视频内容,马匹和运动员的腾空瞬间精准捕捉,且所提出的马蹄落地声、远处裁判哨音与微弱风声也能够明显听到。

提示词 1:

纪实体育摄影风格,中景运动镜头,日光,晴天光,侧光,暖色调,中心构图。一位年轻男性现代五项运动员身着笔挺的白色骑士服,佩戴黑色头盔,骑在一匹肌肉紧实的棕色骏马上,在户外草地上全力冲刺。马儿前跃至空中最高点,四蹄离地,后腿蹬直,前腿高抬,跨越一道木质障碍栏杆,动作流畅有力。运动员身体前倾,缰绳紧握,目光专注前方,姿态稳定。背景为广袤绿草地,蓝色天空飘着薄云,远处树木随风轻晃,阳光从侧面斜照,勾勒出人马轮廓的明亮边缘。伴随清脆的马蹄落地声、远处裁判哨音与微弱风声,镜头全程跟拍,完整记录腾空瞬间。4K 高清画质,动作清晰连贯。

下面的例子是围绕 " 女子打网球 " 输入的提示词,网球撞击球网的声音、远处隐约的观众低语让人很难相信这是 AI 生成的。

提示词 2:

平拍中景,日光,晴天光,侧光,暖色调,中心构图。一位白人女子身着简洁的白色网球服,颈部佩戴一条细长的银色项链,耳垂上闪烁着小巧的钻石耳环,深棕色头发高高扎成马尾,发丝随动作轻扬。她双手紧握网球拍,身体前倾,膝盖微屈,右臂迅速向后引拍,随即向前上方猛烈挥动,球拍击中黄色网球瞬间,发出清脆的 " 砰 " 声,球以高速飞向画外。她的面部肌肉紧绷,眼神锁定球路,嘴角微微下压,展现出专注神情。背景为浅蓝色幕布,其上印有白色英文字母 "CHAMPION SERIES",边缘略微虚化。天空呈现均匀的湛蓝,无云,阳光从右侧斜射,在地面投出清晰影子。伴随击球节奏,可听见球拍破风声、球与拍面撞击声及远处隐约的观众低语。

3、深度理解描述意境,生成高匹配度背景音乐

生成背景音乐也是我们日常创作常见的场景,如下所示,当输入以下围绕 " 为跳舞的黑人女子配上背景音 " 的提示词,Wan2.5-Preview 能够成功生成节奏鲜明的背景乐,深度理解了这一嘻哈的场景风格。

提示词 1:

纪实摄影风格,自然光,晴天日光从侧上方洒落,暖色调,全景,中心构图,平拍镜头。画面中,一位身材高挑的外国黑人女性站在城市街道中央跳舞,她约三十岁,皮肤黝黑,笑容灿烂,牙齿洁白,编成数十条细密辫子的黑发随动作轻轻摆动。她身穿亮紫色宽松短袖上衣和黑色高腰短裤,脚踩白色运动鞋,双臂向上伸展后缓缓划弧, hips 左右轻摇,脚步在地面踏出节奏感强烈的律动,仿佛正随着街头播放的节拍起舞。镜头缓缓后拉,展现她周围环境:宽阔的沥青街道两旁矗立着玻璃幕墙的现代建筑,银灰色路灯笔直延伸,行人穿行其间,有的驻足观看,有的边走边点头打拍子,背景传来轻快的嘻哈音乐节奏。紧接着,镜头切换至另一位外国黑人男性舞者,同样全景平拍,他约三十五岁,戴黑色细框眼镜,穿着浅灰色修身衬衫和黑色长裤,领口微开,神情专注,正在以流畅的身体波浪动作配合脚步滑行。他左手轻抬引导动势,右腿后撤点地,肩部与手臂逐节起伏,展现出极强的控制力。背景音为节奏鲜明的鼓点与贝斯旋律,夹杂着远处车辆驶过的声音、人群低语声和偶尔的掌声。

总的来看,Wan2.5-preview 在此前 Wan2.2 的基础上,不仅提升了视觉生成的清晰度和运动效果,还将声音这一新的维度融合进来,让视频与音频生成能够一步到位。

我们也发现,要用 Wan2.5-preview 生成更加符合需求的视频,还需要将提示词描述得更加详细和准确,这样生成的内容才会更加精准。同时,当生成时长、清晰度需求提升,需要等待的时间也变长,有时生成的视频也会出现漏信息、少声音的情况,这都表明模型仍有进步空间。

结语: 通义万相,阿里被低估的 AI 杀手锏

时至今日,通义万相可能是最被低估的阿里大模型。

在大语言模型和视觉大模型模型这两条路线上,阿里的通义千问系列大语言模型已经占据全球开源大模型的头把交椅,通义万相视觉模型也正迅猛发展,在视觉多模态这一更具挑战的领域高歌猛进,祭出全模态模型、世界模型(待发布)等一个又一个顶尖成果。

随着 2023 年 OpenAI 的 Sora 在全球爆火,阿里通义万相大模型成为 " 国产 Sora" 的代表。2025 年 2 月,通义万相 Wan2.1 正式开源,这款性能赶超 Sora 的大模型由此可以被全球各地的人下载使用;今年 5 月,通义万相 Wan2.2 开源,业界首个使用 MoE 架构,节省近一半计算资源的情况下达到电影级视频生成效果。

如今,最新发布的通义万相 Wan2.5-preview 已经实现了音画文全模态交互,向一个 " 大一统 " 的模型又进了一步。

量变正引起质变。阿里公布的一组官方数据显示:通义万相模型家族已支持文生图、文生视频、图生视频、人声生视频和动作生成等 10 多种视觉创作能力,累计生成 3.9 亿张图片、7000 万个视频,成为中国调用量最大的视觉生成模型之一。

更重要的是开源领域的开花结果。自今年 2 月以来,通义万相已连续开源 20 多款模型,在开源社区和三方平台的下载量已超 3000 万,是开源社区最受欢迎的视频生成模型之一。

下一步,随着通义万相世界模型的面世,阿里大模型的版图将再升一个维度,势必在产业掀起新的技术潮流。

最新评论

没有更多评论了