AI 视频生成正在迎来 " 通义时刻 "!
就在昨夜,阿里突然发布了一款由音频驱动的 14B 视频模型Wan2.2-S2V——
仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。
玩法 + 效果 be like:
△来自 @AIMIRAI46487
而且最重要的是,新模型发布即开源,现在人人都能在通义万相官网免费体验。
单次生成时长可达分钟级,且具有稳定性和一致性;
影院级音频生成视频能力;
基于指令的高级动作与环境控制。
尤其在生成各种电影情节方面,Wan2.2-S2V 已经取得了相当进步,整体自然度和人物动作流畅性有了大幅增强。
网友们更是集体开启了好评模式:
让马斯克还原生活大爆炸经典台词
打开通义万相官网,操作界面长下面这样(目前每日登录官方会赠送 50 积分可用于体验):
I ’ m washing dishes. Well, I was on the turkey line, but I got demoted for being too generous with the gravy.
小试牛刀后,Wan2.2-S2V 很快就生成了以下视频:
有一说一,其对口型能力还是相当不错的,唇形和台词基本都能对上。
而且这里我们只是简单给大家打个样,欢迎大家自行探索更多玩法(doge)。
不过在此之前,咱们继续康康其他网友的实测分享吧 ~
一位日本小哥首先出场,直接用 Wan2.2-S2V 生成了动漫人物朗诵诗的情节,是不是很有动画内味儿了。
或者用来整活儿发朋友圈,制作人物贴画唱歌视频:
而且类似大段 rap、演绎经典影视剧的尝试也不在少数,这里就不一一列举了。
那么最后的问题是——
Wan2.2-S2V 怎么做到的?
背后技术细节
根据官方透露,Wan2.2-S2V 采用了多项创新技术。
在模型训练上,通义万相团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。
然后基于通义万相视频生成基础模型能力,它融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,从而实现复杂场景的音频驱动视频生成。
同时通过引入AdaIN+CrossAttention 两种控制机制,来让音频和画面锁死,解决同步问题。
搞定这些基础之后,为了实现长视频生成,模型还利用层次化帧压缩技术,大幅降低了历史帧的 Token 数量——
将 motion frames(历史参考帧)的长度从数帧拓展到 73 帧,从而实现了稳定的长视频生成效果。
此外,通过多分辨率训练、支持模型多分辨率的推理,模型最后还能支持不同分辨率场景(如竖屏短视频、横屏影视剧)的视频生成需求。
截至目前,加上此次发布的 Wan2.2-S2V,阿里通义基本已经聚齐了视频生成 " 全家桶 "——
显而易见,AI 视频生成正在迎来 " 通义时刻 "。
立即体验:
通义万相官网:https://tongyi.aliyun.com/wanxiang/generate
阿里云百炼 API:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
开源地址:
Github:https://github.com/Wan-Video/Wan2.2
魔搭社区:https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
参考链接:
[ 1 ] https://x.com/Alibaba_Wan/status/1960350593660367303
[ 2 ]
[ 3 ] https://x.com/hazimeno_ipoo/status/1960365063824621734
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见