APP下载

关于ZAKER

合作

量子位 22小时前

阿里云秘密武器亮相顶会：狂砍 82% 英伟达含量，213 块 GPU 干了 1192 块的活

阿里云秘密武器亮相顶会 SOSP：用新技术砍掉 82% 的英伟达 GPU 需求。

一时引起不小关注与讨论。

这项研究由阿里巴巴与北大合作，阿里云 CTO 周靖人带队。

研究提出最新 GPU 池化系统 Aegaeon，用 token 级别的自动扩缩容技术，硬是把 GPU 使用量从 1192 个 " 瘦身 " 到 213 个。

这项研究出发点在对阿里云自身业务一项观察。

在 Model Studio（百炼平台）上，他们发现了一个让人头疼的现象：17.7% 的 GPU 被分配去服务那些几乎没人用的冷门模型，而这些模型只处理了总请求量的 1.35%。

之前要同时运行这些模型时，要么给每个模型单独分配 GP，很多冷门模型的 GPU 经常空着浪费，要么用旧方法让一个 GPU 跑 2-3 个模型（因为 GPU 内存不够，跑不了更多），总之资源利用率特别低。

Aegaeon 瞄准这一痛点，通过精细化的资源调度，彻底改变了 GPU 资源分配的游戏规则。

冷门模型占用长尾资源

具体来说，在他们统计的 779 个模型中，有 94.1% 的模型属于长尾模型，平均每秒请求量不到 0.2 个。

与此同时，那些热门模型比如 DeepSeek 和通义千问虽然请求量大，但也经常出现突发流量，导致预留的 GPU 资源时而过载、时而闲置。

如果按照理想情况计算，单个 GPU 每秒应该能处理好几个请求，这意味着当前的资源利用率还有超过 10 倍的优化空间。

传统的做法是给每个模型分配专用 GPU，但这种 " 一对一 " 的服务模式在面对大量偶发性请求时，简直就是在烧钱。

Token 级别调度，让 GPU" 见缝插针 "

Aegaeon 的核心创新在于采用了 token 级别的自动扩缩容技术，而不是像现有系统那样在请求级别进行调度。

具体来说，系统会在生成每个 token 时动态决定是否需要切换模型，而不是等到整个请求处理完才考虑切换。

如此一来，可以让让 GPU 灵活处理多个模型的请求，大大减少了模型之间的等待时间。论文显示，通过这种方式，单个 GPU 可以同时服务多达 7 个不同的模型。

为了实现这个目标，研究团队还进行了一系列底层优化：

通过组件复用减少了 80% 的初始化开销；

采用显式内存管理避免了内存碎片；

实现了细粒度的 KV 缓存同步机制，让模型切换时间从几十秒缩短到 1 秒以内。

整体来看，这些优化将自动扩缩容的开销降低了 97%。

实战效果：吞吐量提升 9 倍

Aegaeon 展现出最高可达 9 倍的性能提升，最低也有 1.5 倍，计算资源得到了极大的优化。

根据论文数据，与现有的 ServerlessLLM 和 MuxServe 等系统相比，Aegaeon 能够支撑 2-2.5 倍的请求到达率，有效吞吐量（goodput）提升了 1.5 到 9 倍。在测试环境中，使用 16 块 H800 GPU 的集群，系统成功服务了从 6B 到 72B 参数规模的多个模型。

更重要的是，这套系统已经在阿里云百炼平台进行了超过 3 个月的生产环境测试。

在实际部署中，它服务了 47 个不同规模的模型，包括 28 个 1.8B-7B 的小模型和 19 个 32B-72B 的大模型。GPU 利用率从之前的 13.3%-33.9% 提升到了 48.1%，期间没有出现任何 SLO 违规或服务中断。

论文地址：https://dl.acm.org/doi/10.1145/3731569.3764815

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里云秘密武器亮相顶会：狂砍 82% 英伟达含量，213 块 GPU 干了 1192 块的活

宙世代

一起剪

相关阅读

选品背后的供应链之争：头部主播双十一两极分化

性价比品牌都有影像联名了？真我也要冲高？

无需编程，一句话生成一款应用｜AI Founder 请回答

最终价超7800万元！京东“国民好车”001号特别版拍卖结束

中国第一也是世界第一！华为成全球最大激光雷达供应商

超4.1万商家直播销售额同比增长500%，抖音电商双11商家稳健经营

佳能刷新世界纪录：RF/EF系列镜头突破1.7亿支

卢伟冰时隔两年重回REDMI发布会：明天讲K90系列

634g？联想这新机太炸裂了

华为正式发布HarmonyOS 6 10月22日开启公测

折叠屏正在被中产们抛弃

2025数字价值观察室「AI落地指南特别篇」

萝卜快跑落地瑞士：完全无人驾驶运营 10重安全冗余

亚马逊云服务宕机15小时冲击上千家企业，云依赖风险凸显

泰格豪雅再次引领了制表技术的革命性突破！

最新评论

量子位

热门推荐