关于ZAKER 合作
量子位 15小时前

AI 五小时发现 MoE 新算法,比人类算法快 5 倍,成本狂降 26%

AI,不仅在使用算法,更在创造算法。

其创造的新算法甚至比人类的还要快 5 倍。

加州大学伯克利分校的研究团队提出了一种 AI 驱动的系统研究方法ADRS(AI-Driven Research for Systems),它可以通过 " 生成—评估—改进 " 的迭代循环,实现算法的持续优化。

基于现有的开源 ADRS 框架 OpenEvolve,团队在多个领域的案例研究表明,其发现的算法显著优于人类设计算法,实现了高达 5 倍的运行效率提升或 26% 的成本降低。

下面具体来看。

使用 OpenEvolve 发现新算法

如今,大型语言模型的巨大规模能够通过混合专家架构等变得易于管理。

在该模型中,路由器将输入文本的每个 token 动态分配给少量特定的 " 专家 " 网络。这使得请求在推理时仅需使用模型总参数的一小部分,从而极大提升了推理效率。

然而,这种架构也带来了一个关键的性能挑战——如何在各专家间实现负载均衡。

不可避免地,某些专家会变得更受欢迎或 " 热点化 ",从而产生计算瓶颈。承载这些热点专家的 GPU 会过载,而其他 GPU 则处于空闲状态,浪费了宝贵的资源。

解决方案是一种专家并行负载均衡器(Expert Parallelism Load Balancer,EPLB),该算法通过动态调整专家在 GPU 间的分布,以最小化负载不均、最大化系统吞吐量。

基础版 EPLB 算法分三个阶段运行:

1、将专家组分布到各个节点以平衡负载;

2、为热点专家创建副本;

3、将这些副本分配到 GPU 上,进一步优化负载均衡。

给定工作负载、MoE 配置及 GPU 资源后,EPLB 算法会确定各专家所需的副本数量,并将这些副本映射到具体 GPU 上。

可以说,EPLB 算法追求两个核心目标:

最小化负载不均衡:尽可能均匀地分配负载;

最小化运行时间:重新分配过程本身必须快速,以避免成为新的性能瓶颈。

该算法可直接影响生产环境中 LLM 服务的成本与性能表现。

在寻找更优的 EPLB 算法时,团队考虑了两个基线方法。

首先,他们对 DeepSeek 开源的 EPLB 实现方案进行了评估。该方案采用贪心的 " 箱子装载 " 策略:先按负载从高到低对专家排序,然后将每个专家放置到具有容量且负载最轻的 GPU 上。

此方案虽然简单,但由于其用 Python 编写,并通过 for 循环进行线性搜索以找到最适合的 GPU,运行速度较慢。

平均而言,重新平衡这些专家大约需要 540 毫秒,实现的负载平衡因子为 0.66(计算公式为:每 GPU 生成 token 的平均数量与最大数量之比)。

之后,团队还将一个来自前沿实验室的非公开实现纳入考量。该实现方案避免了显式迭代,在达到与开源算法相同负载系数的同时,将重新平衡算法的运行时间缩短至 19.6 毫秒。

为进一步优化运行时间,研究团队选择用 OpenEvolve 来搜索 EPLB 算法。

实验采用基于 PyTorch 实现的 MoE 模型分布式 GPU 推理引擎,工作负载为基于 ShareGPT 和 GSM8K 数据集的负载变化。

其优化目标包含双重维度:既要最大化负载均衡因子(即每 GPU 生成 token 平均数与最大数之比),又要降低负载变化时专家重平衡算法的运行时间。

因此,他们根据负载均衡因子与运行时间倒数的加权平均值对算法进行评分(评分越高代表算法越优)。

实验使用 80% Gemini 2.5 Flash 与 20% Gemini 2.5 Flash Lite 混合配置运行 OpenEvolve。进化过程以开源贪心算法作为初始程序,设置 300 次迭代上限。完整进化流程耗时约五小时,成本低于 10 美元。

OpenEvolve 生成的新算法发现了一种巧妙的启发式方法,用以替代线性 for 循环。

它没有采用传统的箱子装载方式,而是通过对表示专家索引的张量进行重塑与转置,利用 PyTorch 的高速张量操作,以 " 之字形 " 在高负载与低负载 GPU 之间交错分配专家。

此外,OpenEvolve 还引入了一些细微优化,包括更完善的排序逻辑和更具适应性的张量重塑策略。

最终,该算法在保持与其他基线相当的负载平衡因子的同时,将运行时间缩短至仅 3.7 毫秒,较内部参考实现的性能提升达 5 倍。

三位一作皆为华人

Audrey Cheng,本科毕业于普林斯顿大学运筹学和金融工程系,目前在加州大学伯克利分校计算机系攻读博士,师从 Ion Stoica 和 Natacha Crooks。

她的研究方向主要集中于数据库系统的事务处理,尤其是利用调度算法提升系统性能。

此外,她还与 Meta 的 Themis 团队密切合作,研究大规模系统中的一致性与隔离性,获得过 Meta 博士研究奖学金。

Shu Liu,加州大学伯克利分校博士生,本科毕业于美国威斯康星大学麦迪逊分校应用数学专业。

Melissa Pan,加州大学伯克利分校计算机科学专业的博士二年级学生,师从 Matei Zaharia 教授,并隶属于 Sky Computing Lab。她的研究主要关注在大规模机器学习和数据中心系统中,将可持续性作为与效率同等重要的优化目标。

在去伯克利之前,她在多伦多大学获本科学位,在卡内基梅隆大学获得了硕士学位。

学术之余,Melissa Pan 曾在 IBM 担任约三年的软件工程师,参与 Db2 数据库核心引擎的开发,主要负责高可用性功能,例如备份、恢复和数据恢复。

One More Thing

无独有偶,Nature 官网前几天也报道了一篇关于 AI 创造新算法的新闻。

Oh 及其同事开发了一种能发现新型强化学习算法的元学习算法。

该架构的元学习层与基础层均采用神经网络。在元学习层,研究人员设计了一个充当强化学习算法的神经网络,并将其命名为元网络。

通过元网络,该算法在多项陌生任务中的表现超越了人类设计的强化学习算法。

看来,AI 不仅能帮我们工作、帮我们学习,连创新也自己上手了。

下一个突破,可能还是它自己发明出来的。

论文链接:https://arxiv.org/abs/2510.06189

Github 链接:https://github.com/UCB-ADRS/ADRS

参考链接:

[ 1 ] https://adrs-ucb.notion.site/moe-load-balancing

[ 2 ] https://www.nature.com/articles/d41586-025-03398-6

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

相关标签

相关阅读

最新评论

没有更多评论了