阿里云秘密武器亮相顶会 SOSP:用新技术砍掉 82% 的英伟达 GPU 需求。
一时引起不小关注与讨论。
研究提出最新 GPU 池化系统 Aegaeon,用 token 级别的自动扩缩容技术,硬是把 GPU 使用量从 1192 个 " 瘦身 " 到 213 个。
在 Model Studio(百炼平台)上,他们发现了一个让人头疼的现象:17.7% 的 GPU 被分配去服务那些几乎没人用的冷门模型,而这些模型只处理了总请求量的 1.35%。
之前要同时运行这些模型时,要么给每个模型单独分配 GP,很多冷门模型的 GPU 经常空着浪费,要么用旧方法让一个 GPU 跑 2-3 个模型(因为 GPU 内存不够,跑不了更多),总之资源利用率特别低。
Aegaeon 瞄准这一痛点,通过精细化的资源调度,彻底改变了 GPU 资源分配的游戏规则。
冷门模型占用长尾资源
具体来说,在他们统计的 779 个模型中,有 94.1% 的模型属于长尾模型,平均每秒请求量不到 0.2 个。
如果按照理想情况计算,单个 GPU 每秒应该能处理好几个请求,这意味着当前的资源利用率还有超过 10 倍的优化空间。
Token 级别调度,让 GPU" 见缝插针 "
Aegaeon 的核心创新在于采用了 token 级别的自动扩缩容技术,而不是像现有系统那样在请求级别进行调度。
具体来说,系统会在生成每个 token 时动态决定是否需要切换模型,而不是等到整个请求处理完才考虑切换。
如此一来,可以让让 GPU 灵活处理多个模型的请求,大大减少了模型之间的等待时间。论文显示,通过这种方式,单个 GPU 可以同时服务多达 7 个不同的模型。
通过组件复用减少了 80% 的初始化开销;
采用显式内存管理避免了内存碎片;
实现了细粒度的 KV 缓存同步机制,让模型切换时间从几十秒缩短到 1 秒以内。
整体来看,这些优化将自动扩缩容的开销降低了 97%。
Aegaeon 展现出最高可达 9 倍的性能提升,最低也有 1.5 倍,计算资源得到了极大的优化。
根据论文数据,与现有的 ServerlessLLM 和 MuxServe 等系统相比,Aegaeon 能够支撑 2-2.5 倍的请求到达率,有效吞吐量(goodput)提升了 1.5 到 9 倍。在测试环境中,使用 16 块 H800 GPU 的集群,系统成功服务了从 6B 到 72B 参数规模的多个模型。
在实际部署中,它服务了 47 个不同规模的模型,包括 28 个 1.8B-7B 的小模型和 19 个 32B-72B 的大模型。GPU 利用率从之前的 13.3%-33.9% 提升到了 48.1%,期间没有出现任何 SLO 违规或服务中断。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见