关于ZAKER 合作
量子位 22小时前

阿里云秘密武器亮相顶会:狂砍 82% 英伟达含量,213 块 GPU 干了 1192 块的活

阿里云秘密武器亮相顶会 SOSP:用新技术砍掉 82% 的英伟达 GPU 需求。

一时引起不小关注与讨论。

这项研究由阿里巴巴与北大合作,阿里云 CTO 周靖人带队。

研究提出最新 GPU 池化系统 Aegaeon,用 token 级别的自动扩缩容技术,硬是把 GPU 使用量从 1192 个 " 瘦身 " 到 213 个。

这项研究出发点在对阿里云自身业务一项观察。

在 Model Studio(百炼平台)上,他们发现了一个让人头疼的现象:17.7% 的 GPU 被分配去服务那些几乎没人用的冷门模型,而这些模型只处理了总请求量的 1.35%。

之前要同时运行这些模型时,要么给每个模型单独分配 GP,很多冷门模型的 GPU 经常空着浪费,要么用旧方法让一个 GPU 跑 2-3 个模型(因为 GPU 内存不够,跑不了更多),总之资源利用率特别低。

Aegaeon 瞄准这一痛点,通过精细化的资源调度,彻底改变了 GPU 资源分配的游戏规则。

冷门模型占用长尾资源

具体来说,在他们统计的 779 个模型中,有 94.1% 的模型属于长尾模型,平均每秒请求量不到 0.2 个。

与此同时,那些热门模型比如 DeepSeek 和通义千问虽然请求量大,但也经常出现突发流量,导致预留的 GPU 资源时而过载、时而闲置。

如果按照理想情况计算,单个 GPU 每秒应该能处理好几个请求,这意味着当前的资源利用率还有超过 10 倍的优化空间。

传统的做法是给每个模型分配专用 GPU,但这种 " 一对一 " 的服务模式在面对大量偶发性请求时,简直就是在烧钱。

Token 级别调度,让 GPU" 见缝插针 "

Aegaeon 的核心创新在于采用了 token 级别的自动扩缩容技术,而不是像现有系统那样在请求级别进行调度。

具体来说,系统会在生成每个 token 时动态决定是否需要切换模型,而不是等到整个请求处理完才考虑切换。

如此一来,可以让让 GPU 灵活处理多个模型的请求,大大减少了模型之间的等待时间。论文显示,通过这种方式,单个 GPU 可以同时服务多达 7 个不同的模型。

为了实现这个目标,研究团队还进行了一系列底层优化:

通过组件复用减少了 80% 的初始化开销;

采用显式内存管理避免了内存碎片;

实现了细粒度的 KV 缓存同步机制,让模型切换时间从几十秒缩短到 1 秒以内。

整体来看,这些优化将自动扩缩容的开销降低了 97%。

实战效果:吞吐量提升 9 倍

Aegaeon 展现出最高可达 9 倍的性能提升,最低也有 1.5 倍,计算资源得到了极大的优化。

根据论文数据,与现有的 ServerlessLLM 和 MuxServe 等系统相比,Aegaeon 能够支撑 2-2.5 倍的请求到达率,有效吞吐量(goodput)提升了 1.5 到 9 倍。在测试环境中,使用 16 块 H800 GPU 的集群,系统成功服务了从 6B 到 72B 参数规模的多个模型。

更重要的是,这套系统已经在阿里云百炼平台进行了超过 3 个月的生产环境测试。

在实际部署中,它服务了 47 个不同规模的模型,包括 28 个 1.8B-7B 的小模型和 19 个 32B-72B 的大模型。GPU 利用率从之前的 13.3%-33.9% 提升到了 48.1%,期间没有出现任何 SLO 违规或服务中断。

论文地址:https://dl.acm.org/doi/10.1145/3731569.3764815

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见