感谢开源
据 AIPress 报道,一个名为 HappyHorse-1.0 的匿名视频模型在权威评测网站 Artificial Analysis 榜单上强势登顶。


这匹开心马背后的身份背景极其亮眼。多方消息确认,该项目出自阿里淘天集团旗下的 " 未来生活实验室 ",而负责人正是职级 P11 的行业翘楚——张迪。
张迪的履历在业内堪称传奇。他曾于 2020 年至 2025 年间担任快手副总裁,被业界誉为 " 可灵之父 "。在快手期间,他主导搭建了可灵大模型的底层架构。2025 年 11 月,在经历短暂的 B 站转战后,张迪正式回归阿里。
Happy Horse 1.0 的核心卖点,是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是:先生成一段没有声音的视频,再找另一个模型配音,再找另一个工具做口型对齐,几道工序下来,时间和误差都在叠加。
而 Happy Horse 1.0 用一个统一的 Transformer 同时处理视频和音频,一次前向推理直接输出带声音的成片,口型、脚步声、环境音全部在同一个过程里生成,不需要任何后期拼接。
模型参数量是 150 亿,架构上是纯自注意力 Transformer,没有交叉注意力,没有独立的音频分支,也没有专门的条件网络。整体设计刻意追求极简——把所有模态(文本、图像、视频、音频)的 token 拼成同一个序列,让模型在去噪过程中自己学会跨模态对齐。
在结构上,40 层 Transformer 采用了一种 " 三明治 " 布局:头 4 层和尾 4 层用模态专属的投影层处理各自的输入输出,中间 32 层则是所有模态共享参数。实际的跨模态推理就发生在这 32 层里,这也是整个架构参数效率最高的地方。
此外,每个注意力头都有一个可学习的标量门控,用 sigmoid 激活,专门用来稳定多模态联合训练时的梯度——毕竟音频损失和视频损失同时反传,很容易互相打架。
速度方面,模型采用了 DMD-2 蒸馏技术(Distribution Matching Distillation v2),把去噪步数从通常的 25 到 50 步压缩到了 8 步,同时不需要无分类器引导(CFG),这一项本身就能砍掉将近一半的计算量。再配合 MagiCompiler 全图编译运行时带来的约 1.2 倍额外加速,在单张 H100 上,生成一段 1080p 视频只需要大约 38 秒,256p 的预览版本则在 2 秒左右就能出来。
目前 Happy Horse 1.0 在官网可通过文本生成和图片生成两种方式体验生成视频,不同模型对制作时长的限制各不相同。
往期阅读:V 社也在开发 AI 工具:SteamGPT 曝光,可迅速处理玩家游戏举报、退款咨询等问题
