美团,你是跨界上瘾了是吧!(doge)
没错,最新开源 SOTA 视频模型,又是来自这家 " 送外卖 " 的公司。
模型名为LongCat-Video,参数 13.6B,支持文生 / 图生视频,视频时长可达数分钟。

无论是空中滑板:


仔细看,视频的 AI 味儿浓度确实降低不少。
而且从测评成绩来看,其表现也相当亮眼——文生视频能力在开源模型中处于顶尖水平,整体质量优于 PixVerse-V5 和 Wan2.2-T2V-A14B,部分核心维度甚至可与谷歌最新、最强闭源模型 Veo3 媲美。


中国团队竟然发布了一个 MIT 协议的基础视频模型???


文生 / 图生视频开源 SOTA,还能像制作连续剧一样生成长视频!
整体而言,美团这次发布并开源的 LongCat-Video 具备以下功能:
文生视频:可生成 720p、30fps 高清视频,语义理解与视觉呈现能力达开源 SOTA 级别;
图生视频:能够保留参考图像的主体属性、背景关系与整体风格等;
视频延长:核心差异化能力,可基于多帧条件帧续接视频内容。
文生视频方面,从官方提供的案例来看,这个模型尤为强调对真实世界的理解能力。
一眼看去,主页上一溜的足球、体操、跳舞等视频:

而 LongCat-Video 几乎都考虑到了,整体完成度 be like:


而当给了 LongCat-Video 一张机器人正在工作的图片后,它直接立马生成了机器人 " 居家办公 " 的日常 vlog。
一会儿拿桌上的小熊、一会儿拿水杯、甚至下班关电脑……不同动作下,桌面及周围的环境均未发生 " 异变 ",扛住了一致性挑战。

白天当壁画,晚上出来打游戏可还行(谁说不是真 · 破壁呢?)。


一个视频搞定后,只需接着续写提示词,最终就能生成一个完整情节或片段。
比如下面这个接近半分钟的视频,就是通过以下提示词一步步实现的(中译版):
1、厨房明亮通风,白色橱柜和木质台面交相辉映。一块新鲜出炉的面包放在砧板上,旁边放着一个玻璃杯和一盒牛奶。一位身着碎花围裙的女士站在木质台面旁,熟练地用锋利的刀切着一块金黄色的面包。面包放在砧板上,她切的时候,面包屑四处飞溅。
2、镜头拉远,女人放下手中的刀,伸手去拿牛奶盒,然后将其倒入桌上的玻璃杯中。
3、女人放下牛奶盒。
4、女人拿起牛奶杯,抿了一口。
怎么样?是不是有拍电影电视剧的感 jio 了 ~
敲黑板,由于 LongCat-Video 本身就经过视频连续任务的预训练,所以它能够制作长达数分钟的视频,而不会出现颜色漂移或质量下降的情况(一般可稳定输出 5 分钟级别的长视频,且无质量损失)。
美团表示,之所以推出 LongCat-Video,核心瞄准的还是世界模型这一前沿领域:
作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予 AI" 看见 " 世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI 得以在数字空间中模拟、推演乃至预演真实世界的运行。
而为了构建视频模型 LongCat-Video,美团这次在技术方面也是进行了一系列创新和突破。
背后技术原理
LongCat-Video 只有13.6B,但集成了文生视频、图生视频和视频续生三大任务于一体。

并使用 AdaLN-Zero 调制机制,将每个 Transformer 块均集成为专用的调制多层感知机,再在自注意力和交叉注意力模块中,采用 RMSNorm 归一化以提升训练稳定性,另外还对视觉 token 的位置编码使用 3D RoPE。

文本到视频:0 帧条件。
图像到视频:1 帧条件。
视频续生:多帧条件。
统一混合输入后,将无噪声的条件帧和待去噪的噪声帧沿着时间轴拼接,结合时序步配置,以实现单模型原生支持多任务。
而为了适配这类输入,研究团队还在架构中设计了一种带键值缓存(KVCache)的块注意力机制,该设计可以确保条件 token 不受噪声 token 的影响,且后续可以缓存并复用条件 token 的 KV 特征,提升长视频生成效率。
其中最瞩目的长视频生成能力,主要通过原生预训练设计和交互式生成支持两大核心特性实现。
首先 LongCat-Video 摒弃了传统的 " 先训练基础视频生成能力,再针对长视频任务微调 " 的训练路径,而是直接在视频续生任务上预训练。
这样做可以直接从源头解决长视频生成中的累积误差问题,在生成分钟级视频的同时,避免色彩漂移和质量下降。
另外 LongCat-Video 还支持交互式长视频生成,允许用户为不同片段设置独立指令,进一步扩展了长视频创作的灵活性。
<>
再引入块稀疏注意力,将注意力计算量降至原始的 10% 以下,配合上下文并行的环形块稀疏注意力,进一步优化高分辨率生成效率。

另外针对视频生成场景,使用组相对策略优化(GRPO)算法,提升 GRPO 在视频生成任务中的收敛速度与生成质量。

视觉质量
(VQ):结合 HPSv3-general 和 HPSv3-percentile 进行评估。
运动质量
(MQ):基于 VideoAlign 模型微调,并使用灰度视频训练避免色彩偏好。
文本 - 视频对齐度
(TA):同样基于 VideoAlign 模型微调,但保留原始的彩色输入。
然后进行多奖励加权融合训练,避免单一奖励的过拟合和奖励欺骗问题,实现视觉、运动、对齐能力的均衡提升。

其中文生视频,包含文本对齐、视觉质量、运动质量、整体质量四个维度。
实验结果表明,LongCat-Video在整体质量得分中超越 PixVerse-V5 和 Wan2.2-T2V-A14B,视觉质量接近 Wan2.2-T2V-A14B,仅略逊于闭源模型Veo3。
图生视频则在此基础上,新增图像对齐维度评估,最终结果中 LongCat-Video 的视觉质量得分最高(3.27),说明整体质量具有竞争力,但图像对齐与运动质量仍有提升空间。


One More Thing
而这已经不是这家外卖公司第一次 " 不务正业 " 了……
从八月底开始,美团龙猫大模型就在不停地发发发,先是端出来了最经典的开源基础模型LongCat-Flash-Chat。
总参数 560B,可以在仅激活少量参数的前提下,实现性能比肩市面上的主流模型,尤其是在复杂的 Agent 任务中表现突出。
而且现已登陆 API 平台使用~


以及专为复杂现实生活场景(外卖送餐、餐厅点餐、旅游出行)打造的 Agent 评测基准——VitaBench,可以系统性衡量 Agent 在推理、工具使用和自适应交互方面的能力。(泪目,终于回归老本行 .jpg)
……
最后再到今天的视频生成模型,毫无疑问," 跨界 "AI 正在成为这家外卖公司的新常态。
开源地址:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
项目主页:
https://meituan-longcat.github.io/LongCat-Video/
参考链接:
[ 1 ] https://x.com/Meituan_LongCat/status/1982083998852763838
[ 2 ] https://x.com/reach_vb/status/1982014895454331341
[ 3 ]
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见