能看懂视频并进行跨模态推理的大模型 Keye-VL 1.5,快手开源了。
还创新性地提出 Slow-Fast 双路编码机制,给模型带来了 128k 的超长上下文窗口,而且速度与细节兼顾。
成绩上,不仅在 Video-MME 短视频基准斩获 73.0 的高分,还在通用、视频和推理场景的大量 Benchmark 当中领跑同级模型。
要说 Keye-VL-1.5 最大的亮点,研究团队认为主要有三个,也就是开头提到的 128k 上下文、突出的短视频理解能力、 以及更强的 Reasoning 能力。
在视频理解场景当中,这三项能力能够同时得以展现。
首先是时序信息理解,Keye-VL-1.5 能够准确判断特定物品在视频中出现的时间点,而且精确到 0.1 秒级。
比如在这段 26 秒带货视频片段中,介绍了一款充电宝,其中一个环节是将其装进包包,以体现便于携带。
Keye-VL-1.5 看完这段视频后,准确回答出了其中包包出现的时间—— 22.3-23.8 秒。
而其他模型或者时间只精确到秒而且还不准确,或者干脆不说时间,直接数起了镜头。
再来是描述能力,Keye-VL-1.5 能够详细描述视频画面场景和细节。
例如对于上面这段视频,Keye-VL-1.5 给出了这样的描述:
在这段宠物视频当中,大狗做出了一个咬小狗耳朵的动作,而 Keye-VL-1.5 要分析大狗为什么要咬。
其实答案在视频当中已经以文字的形式写了出来,但是 Keye-VL-1.5 的解释更加详细,并进一步用视频中的后续变化来加强自己的观点。
在 MMBench、OpenCompass 等综合类基准中,Keye-VL-1.5 的成绩均超越 Qwen2.5-VL 7B,并取得多个 SOTA。
在图像推理强相关的 AI2D、OCRBench 等数据集中,也均超出同级其他模型。
包含视觉的数学与逻辑推理维度上,Keye 也保持了领先优势。
Keye-VL-1.5-8B 在人类标注的五项指标(正确性、完整性、相关性、流畅度、创造性)上获得 3.53 分的综合成绩,较预览版本提升了 0.51 分,也超过了作为对比的竞品模型。
视频理解,也用上了快慢思考模型架构和快慢编码策略
整体设计上,Keye-VL-1.5 采用了 " 视觉 Transformer(ViT)+MLP 投影器 + 语言解码器 " 的三段式架构。
ViT 将输入图像或视频帧切成 14 × 14 的 patch 序列,用自注意力捕捉全局空间关系。
该 ViT 在初始化时直接继承 SigLIP-400M 参数,SigLIP 是一种图文对比预训练方法,可让视觉特征天然带有语义对齐能力。
为了在不裁剪的情况下处理任意分辨率,团队对 ViT 添加了 " 原生分辨率 " 支持,操作上先把绝对位置向量插值到任意尺寸,再引入 2DRoPE(二维旋转位置编码)增强高分辨率外推。
ViT 输出的 patch 特征经由两层 MLP 投影器送入语言解码器,语言端采用 Qwen3-8B,并在其位置编码中加入 3DRoPE。
3DRoPE 是在传统二维旋转角的基础上再增加一维 " 时间 / 深度 " 角度,目的是让文本 token 与视觉 token 按统一时序排序。
模型首先会对连续帧做 patch 级余弦相似度计算,若与最近一次 " 慢帧 "(又称变化帧,低帧数高分辨率)相似度 >95% 则判定为 " 快帧 " (又称静止帧,高帧数低分辨率),否则标记为新 " 慢帧 "。
处理时,慢帧保留高分辨率,快帧分配慢帧 30% 的 token 预算,再结合二分搜索,能够让总预算精确落在限制内,并在序列里插入时间戳特殊符号以标注帧界。
预训练采取四阶段渐进流水线,按照 " 先单模后多模、先对齐后扩窗 " 的顺序展开:
Stage0,视觉编码器预训练:仅用 SigLIP 对比损失继续训练 ViT,强化视觉语义,适应内部数据分布;
Stage1,跨模态对齐:冻结 ViT 与 Qwen,只训练 MLP 投影器进行大规模跨模态对齐;
Stage2,多任务预训练:解冻全网络,在 8K 上下文下端到端优化,增强模型的基础视觉理解能力;
Stage3,退火训练: 在精选高质量数据上进行微调,引入长上下文模态数据,把上下文拉长到 128K。
四阶段结束后,Keye 团队对不同数据配比训练的 " 同质 " 权重与针对 OCR、数学等薄弱项单独强化得到的 " 异质 " 权重进行模型融合,以减小偏差并提升鲁棒性。
" 同质模型 " 指的是在退火期采用相同网络结构和相似任务目标,但调整数据配比、样本难度或随机种子训练出的多份主干权重,这些模型彼此性能分布接近;
" 异质模型 " 则是利用与主干不同的专用数据域进行进一步精调而生成的专家权重,例如团队针对车牌、票据和街景文字额外收集 / 合成数据训练出的 OCR-Expert。
由于双方架构一致,融合过程可以通过直接权重插值实现,不引入推理时额外开销,却能将专家的局部能力注入通用模型。
Post-training
Keye-VL-1.5 的训练后处理包含四个主要阶段:
第一步用监督微调结合多偏好优化(MPO)建立输出质量基线;
第二步通过五步流水线的大规模链式思考数据冷启动,为模型提供可靠的推理示范;
第三步在可验证奖励框架下采用 GSPO 算法并配合渐进提示采样做多轮强化学习,系统化提升通用推理能力;
最后一步以规则 - 生成式 - 模型三源奖励完成对齐强化学习,重点加强指令遵循、格式一致性与用户偏好一致性。
随后进入 MPO,以 25 万开源、15 万纯文本和 2.6 万人工样本为基底,利用 Keye-Reward 模型分数和人工评估构造高低质配对,通过偏好损失函数让模型在同一问题上倾向得分更高的答案,从而进一步提升回答质量。
有了质量可控的答案后,模型借助链式思考冷启动流水线迅速补齐推理深度,先自动生成带步骤的解答,再由第二模型逐步打分进行分级,中档样本经人工精修后复审,高分样本直接入库,为后续强化学习提供可靠冷启动权重。
接下来进入通用强化学习,系统首先按照样本难度分组,然后利用 GSPO 在组内基于序列重要性权重裁剪优势函数,缓解长序列梯度不稳。
当推理能力趋于收敛后,训练转入最后的对齐阶段。
规则奖励通过正则和 AST 解析强制检查 JSON、Markdown 等结构与内容安全,生成式奖励由外部大模型评估逻辑一致性与语言风格,模型奖励则来自 Keye-Reward 模型的细粒度偏好分。
三类信号动态加权,使最终模型既能遵循指令又能保持格式正确并符合用户偏好,同时有效降低无依据生成风险。
团队成果多次亮相顶会
说到快手大模型,我们可能更熟悉视频生成模型可灵,但实际上,快手在其他类型的大模型上同样有很强的实力。
打造 Keye-VL 的 Keye 团队,是快手内部专注多模态大语言模型研发的核心 AI 部门,主攻视频理解、视觉感知与推理等前沿方向。
Keye 团队认为,整合视觉、语言和行为等多源数据的智能体,对于解锁更深层次的认知和决策至关重要。
目前,Keye 团队已经拥有大量成果,在今年的多个顶会上密集发布。
ICML 2025 上,Keye 团队提出了多模态 RLHF 框架 MM-RLHF(2502.10391),通过 120k 人类偏好对比与批评式奖励模型,显著提升 MLLM 安全性及对齐性能。
该框架通过 VLM 驱动内容质量与风险判定,显著提高短视频审核效率与准确率。
交错图文多模态数据集 CoMM(2406.10462),提供了高一致性图文叙事样本,从而增强模型图文穿插理解与生成能力。
MoE 模型优化算法 STGC(2406.19905),可以检测 token 梯度冲突并进行重路由,提升专家利用率与收敛速度。
Keye 正在把多模态技术从实验环境推向千万级日常场景,验证复杂视频理解在真实业务中可行且高效,为同类技术的工程化落地提供了直接样本。
技术报告:
https://arxiv.org/pdf/2509.01563
代码:
https://github.com/Kwai-Keye/Keye/blob/main/Kwai_Keye_v1_5.pdf
模型权重:
https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B
在线 DEMO:
https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见