复合 LLM 应用 ( compound LLM applications ) 是一种结合大语言模型(LLM)与外部工具、API、或其他 LLM 的高效多阶段工作流应用。
前,服务这些应任务需要对运时不确定、作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运效率。
为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架 LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合 LLM 应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。
目前论文已被 IEEE ICDCS ’ 25 接收。
实验结果显示,LLMSched 结合探索 - 利用策略来平衡调度不确定性与当前调度收益,最终实现高效调度复合 LLM 应用,相较现有调度器平均任务完成时间降低 14~79%。
团队通过对现有复合 LLM 应用的设计分析与实验,总结出复合 LLM 应用以下两点不确定性:
时长不确定性:单任务耗时波动高达 300 秒(图 1a)。该不确定性主要来源于 LLM 的自回归生成特性。
结构不确定性:任务步骤数与运行结构随机波动(图 1b/c)。该不确定性主要来源于 LLM 在复合 LLM 应用中发挥的决策与规划功能。
为了应对复合 LLM 应用中存在的结构不确定性,研究团队提出全新有向无环图(DAG)建模框架,如下图所示。该框架引入了三种节点,常规节点(Regular Stage),LLM 节点(LLM Stage)与动态虚拟节点(Dynamic Stage)。其中,常规节点对应外部工具、api 等的调用,LLM 节点对应 LLM 推理任务,动态虚拟节点对应由 LLM 规划生成的子 DAG。
贝叶斯分析器 + 熵减衡量机制:让系统越算越 " 清醒 "
团队在研究过程中意识到复合 LLM 应用的部分节点存在显著的关联性。这种关联性使得在执行完成某些前置节点后,后续节点的不确定性能够有效降低,具体表现如下:
1、规划式任务中 LLM 规划节点后的工作流完全由该节点决定。完成该 LLM 规划节点后,所规划的子工作流的未知拓扑结构可被完全揭示。
2、相当一部分的节点在运行时长上存在较高的关联性(下图所示)。在完成前置节点后,后续节点的时长不确定性进一步降低。具体表现在后续节点的运行时长的条件分布更为紧凑、可预测。
考虑到实际情况中,不同的节点能够降低的不确定性程度大不相同,团队引入信息论中信息熵的概念,使用互信息衡量,如下图所示。由于信息熵与互信息均通过变量的分布进行计算,因此之前通过 BN 获得分布便可以直接用于计算调度每个节点的熵减,无需额外的测量。
实验结果:平均任务完成时间最低降至 79%
团队选取了六种代表性的复合 LLM 应用,并基于此构建了 4 种不同应用组成的负载,如下图所示。团队在一台搭载 H800 GPU 的 ubuntu 机器上使用 vLLM 框架与 LLaMA-7B 模型进行了实验。
实验结果表明,LLMSched 相较于现有的调度器最多可降低 79% 的平均任务完成时间。
实验结果表明,LLMSched 在任意一组实验设置上均取得领先的成绩,同时随着任务数量增加,LLMSched 的优势变得更为突出,比如,与 Decima 相比,在包含 100、200、300 和 400 个任务的混合工作负载中,LLMSched 分别降低了 38%、65%、73% 和 75% 的平均 JCT,这展示了 LLMSched 的可扩展性。
为了分析这两个组件的有效性,团队进行了消融研究,创建了两种额外的方法——LLMSched w/o BN 和 LLMSched w/o uncertainty。第一种方法遵循算法 1 中提出的相同调度方案,但使用历史任务平均持续时间进行估计。第二种方法使用贝叶斯网络更新任务持续时间的后验分布,但仅执行 SRTF 策略。
对于 LLMSched w/o BN,在四种类型工作负载上,平均 JCT 分别比 LLMSched 高 18%、17%、20% 和 5%。这表明 BN 发挥了重要作用,因为它显著提高了任务持续时间估计的准确性。借助 BN,可以通过利用阶段间相关性,更动态地更新和更准确地预测非计划阶段的任务持续时间。
对于 LLMSched w/o uncertainty,在四种类型工作负载上,平均 JCT 分别比 LLMSched 高 21%、12%、15% 和 13%。这表明不确定性感知策略在有效引导探索过程中至关重要。当处理混合工作负载时,其重要性尤为突出,因为各阶段的不确定性减少差异显著。对于这种工作负载,LLMSched w/o BN 的性能优于 LLMSched w/o uncertainty。
LLMSched 为 LLM 服务优化开辟了新方向,尤其对多模块协作的 Agent 系统、LLM 推理集群资源调度具有重要参考价值。其不确定性量化框架可扩展至其他动态任务场景,推动智能调度理论与实际系统的深度融合。
论文链接:https://arxiv.org/abs/2504.03444
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见