关于ZAKER 合作
智能纪元AGI 14小时前

院士来了 !Kimi 联合清华提出“算力预制菜”技术 ,AI 词元吞吐提高 54%!

" 算力预制菜 ",这不是我提的,而是 Kimi 解析的 PrfaaS 技术。

就在国产 Kimi K2.6 模型即将发布的前夕,月之暗面 Kimi 联合清华放出关键技术突破。

4 月 17 日,Kimi 与清华大学日前联合推出全新跨数据中心架构PrfaaS(预填充即服务),直击大模型长上下文算力瓶颈。

PrfaaS 架构把大模型长文本预填充单独交给专属算力集群处理,算出的 KVCache 通过普通网络传给解码集群用;再搭配智能调度与缓存优化,不用高端低延迟网络,就能让预填充、解码两大模块分开灵活扩容,降本又好部署。

实测基于 1T 混合参数模型,这套增强异构方案仅占用少量跨机房带宽,相较传统同构部署、基础异构方案,吞吐量分别提升54%、32%,大幅拉高超大模型集群吞吐上限。

4 月 17 日,该研究成果以《Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter》为题发表在 Arxiv 上。

本论文通讯作者为清华大学副教授、开源项目 Mooncake 发起人、开源项目 KTransformers 发起人章明星。

核心作者包括中国工程院院士、清华大学计算机系教授郑纬民,清华大学教授武永卫,许欣然、月之暗面秦若愚等人。月之暗面工程副总裁

需要提及一点的是,Mooncake 这也是郑纬民院士最自豪的研究成果之一——几乎每次演讲都会提到。

https://arxiv.org/abs/2604.15039v1论文:

对于 Kimi K2.5 背后技术,详见前文:杨植麟 GTC 大会演讲全文:Kimi 的三大核心技术将颠覆 AI 大模型的未来

01 为什么 PrfaaS 优于传统 KVCache?

这次诞生出两个新的 AI 名词:KVCache(键值缓存)、PrfaaS。

通俗点说,KVCache 就是使用 AI 回答问题时存起来的 " 历史聊天记忆 + 计算草稿 ",避免重复干活,大幅提速、省算力。

实际上,目前在 AI 推理阶段,大语言模型主要分 PD 两步分离式架构输出:

1、预填充(Prefill)。你发完问题,AI 一次性把你整段话、上下文全部算一遍,算出一堆关键数据,打包存下来,这堆存下来的数据就是 KVCache。

2、解码生成(Decode逐字输出)。后面慢慢打字的时候,直接调用存好的 KVCache 缓存,只算最新一个字,不用重复算前面所有内容。

通常情况下,一台机器上的 GPU 既用于 " 备菜 "(预填充,即思考过程),也用于 " 炒菜 "(解码,即逐字逐句输出),这两个阶段交替进行。假设今天只有一个请求,就是显卡可以顺利地进行 " 思考 " 和 " 输出 ",过程相对简单。但是随着用户增多,传统想法是需要更多人使用同一张卡进行服务,因此当显卡在 " 炒菜 " 的过程中,如果有新请求进来,它就必须立即开始 " 备菜 "。在 Kimi 的表现上可能是回答一半卡住,等一会儿再继续,这样的用户体验很差。

通过分离式架构,我们将 " 备菜 " 和 " 炒菜 " 阶段独立开来。这样每个阶段都有专人负责,如果 " 炒菜 " 的资源不足,就增加 " 炒菜 " 的资源," 备菜 " 资源不足就增加 " 备菜 " 的资源,每个任务完成后,转交至下一阶段。这样不管用户有多少,只要对话开始,就不会出现卡顿问题。我们可以放心地将压力加载,GPU 始终保持满负荷运行。一方面降低了成本,另一方面也提升了用户体验,实现了双赢。

当前,预填充 - 解码 ( PD ) 解耦已成为大规模 LLM 服务的标准架构,但实际上其部署边界仍然取决于键值缓存 ( KVCache ) 的传输。

而在传统的密集注意力模型中,预填充会产生巨大的 KVCache 流量,使得预填充和解码在单个高带宽网络域内紧密耦合,从而限制了异构部署和资源弹性。

近年来,包括 DeepSeek 在内的全新混合注意力架构,大幅减小了 KVCache 的大小,使得跨集群 KVCache 传输变得越来越可行。

然而,仅仅减小 KVCache 的大小并不能使异构跨数据中心的 PD 服务真正实现:实际工作负载仍然具有突发性,请求长度高度不均匀,前缀缓存分布不均,并且集群间带宽波动较大。

因此,完全将预填充外部化的简单设计仍然可能面临拥塞、队列不稳定和利用率低等问题。

论文中以 MiniMax 2.5 为例。

在标准 Transformer 式注意力中,KVCache 随上下文长度线性增长,可能达到数十 GB。具有 GQA 的代表性密集模型 MiniMax-M2.5 在不同输入长度下的 KV 吞吐量,瓶颈非常明显:对于一个 32K tokens 的请求,单个 MiniMax-M2.5 实例产生的 KVCache 约为 60 Gbps,所需的出站带宽远远超过典型机器跨数据中心以太网的容量。

这正是为什么传统的 PD 分离仍然在操作上与紧密集成的网络域绑定在一起的原因。网络预算如此之大,以至于在更松散的互连上移动预填充和解码,更不用说跨数据中心了,根本不可行。

因此,在 AI 算力工程阶段,Kimi 和清华大学团队基于全新的跨数据中心服务架构 " 预填充即服务 "(Prefill-as-a-Service,简称 PrfaaS),解决此问题。

那么,PrfaaS 如何解决传统 PD 分离架构的异构部署瓶颈?我根据论文,总结了以下三点:

1、混合注意力模型减少 KVCache 规模;

2、选择性卸载长上下文请求问题,使仅 50% 的长请求占用带宽,且混合模型 KV 吞吐量降低 13 倍,最终跨数据中心带宽需求仅为 13Gbps

3、带宽感知调度与缓存感知路由,使跨数据中心带宽需求降至百 Gbps 量级。

具体而言,根据论文,PrfaaS-PD 系统包含三个角色:PrfaaS 预填充、PD-P(PD 集群内的预填充节点)和 PD-D(PD 集群内的解码节点)。

该架构选择性地将长上下文预填充任务卸载到独立的、计算密集型的预填充集群,并通过通用以太网将生成的键值缓存(KVCache)传输到本地的预处理集群进行解码。

PrfaaS 并非仅仅减少 KVCache 容量,而是将模型端的键值效率与系统端的选择性卸载、带宽感知调度和缓存感知请求放置相结合。这种设计无需异构加速器共享相同的低延迟 RDMA 网络,从而实现了在耦合集群间独立扩展预填充和解码容量。

论文还通过一个案例研究来验证这一思路,该案例使用了内部的 1T 参数混合模型——也就是 Kimi K2.5。

遵循 Kimi Linear 架构,该模型在独立的 PrfaaS 集群用于长上下文预填充、以及传统 PD 集群用于解码和短上下文预填充所构成的异构部署中,系统的服务吞吐量分别比同构 PD 基准和拓扑异构基准高出 54% 和 32%,同时每台机器仅消耗适度的跨数据中心带宽。

这些结果表明,KVCache 高效的模型架构是必要的,但并不足以实现跨数据中心的异构服务。真正使部署可行的是模型端 KVCache 的精简与系统端选择性卸载及带宽感知调度的结合。

二者共同作用,将跨数据中心 PD 分离从一种颇具吸引力的想法转变为一种切实可行的服务架构。

论文指出,尽管异构PrfaaS-PD 配置中采用 32 个 H200 GPU,本地 PD 采用 64 个 H20 GPU,但仅作为具有代表性的硬件组合,并非唯一可行的搭配。更具成本效益的预填充专用芯片将进一步降低生产环境中的部署成本。

换句话说,这套架构也用了国产或专用 AI 芯片进行部署测试。

论文结论中表示:" 为应对异构分散推理的实际部署挑战,我们提出了跨数据中心 KVCache 的概念,将分散式服务从单一同构集群扩展到跨集群的异构部署。在此基础上,我们设计了 PrfaaS-PD 分散架构,通过利用商品以太网连接的异构 PrfaaS 集群,以低成本提升系统服务吞吐量。我们设想,跨数据中心 KVCache 范式将与下一代模型、硬件和网络协同演进,从而实现大规模下高效大模型服务。"

02 论文作者介绍 &Kimi 新模型曝光

本论文通讯作者、清华大学教授、KVCache.AI 团队负责人章明星,本科毕业于北京邮电大学,博士毕业于清华大学,师从清华大学教授武永卫,曾担任深信服首席算法技术专家和创新研究院院长,并在系统领域发表数十篇顶级会议论文。

清华大学 KVCache.AI 团队发布了开源项目 KTransformers 中,仅用一张 24GB 的消费级显卡就成功驱动了具有 236B 参数量的 DeepSeek V2 大模型,实现了 14 Tokens/ 秒的生成速度——这意味着,2 千亿大模型的使用门槛降低到 4 万以内。

天眼查显示,清华大学计算机科学与技术系教授武永卫联合发起成立的 AI infra 公司趋境科技中,章明星持股 2.6783%。

郑纬民院士。现任中国工程院院士、九源智能计算系统生态联合体理事长、清华大学计算机系教授。

郑纬民院士 1970 年毕业于清华大学自动控制系,1982 年获清华大学计算机科学与技术专业硕士学位,1985 年至 1986 年在美国纽约州立大学石溪分校进修学习,1989 年至 1991 年在英国南安普敦大学进修学习,曾任中国计算机学会理事长。2019 年,郑纬民当选中国工程院院士。

郑纬民主要学术方向为网络存储系统。长期从事网络存储系统科学研究、工程建设和人才培养。

本论文第一作者 Ruoyu Qin(秦若愚),目前就职于月之暗面,曾在清华大学计算机科学与技术系 MADSys 实验室读博,师从章明星教授,主要研究领域为分布式系统和机器学习系统。

此前,秦若愚和章明星在 KVCache.AI 项目上,与月之暗面共同发布了人工智能助手 Kimi 底层的 Mooncake 模型推理架构。这一架构承载了 Kimi 80% 以上的实际线上流量,在某些模拟场景中,吞吐量可以增加到未优化场景的 5.25 倍。

Mooncake 论文还在USENIX 文件和存储技术会议 ( FAST ) 上获得Erik Riedel Best Paper Award。

就在今年 4 月 15 日,Kimi 推出的 K2.6-code-preview 已经上线。

这意味着,Kimi 即将要发布 K2.6 系列新的基座模型。

早前,据界面新闻,在 Kimi K2.5 模型发布一个月之后,月之暗面 ARR(年度经常性收入)突破 1 亿美元。

不得不说,杨植麟掌舵的月之暗面堪称 AI 赛道迭代标杆

一边快速更新 Kimi 模型版本,一边深耕底层算力架构创新,软硬协同全速突破,进化效率拉满,稳步奔赴 AGI 终局。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容