顶级大模型性能确实很强,但对于预算不高的用户来说就是:
你很好但我不配。
虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。
为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。
性能新高:Avengers-Pro 的最高性能超越 GPT-5-medium 7%,超越 Gemini-2.5-Pro 19%。
极致性价比:Avengers-Pro 能以降低 27% 成本的方式,达到与 GPT-5-medium 同等的顶级性能;更能以仅 19% 的成本,获得 Gemini-2.5-Pro 同等的性能水平。
帕累托最优:相比单个模型,Avengers-Pro 在任何给定成本水平下都能实现最高准确率;反之,针对任何指定的准确率目标,也能将成本降至最低,实现了性能 - 成本平衡的帕累托最优解。
研究背景:大模型的智能调度路由
如何平衡大模型的性能表现和推理成本是大模型领域的关键问题。
在已经被优化到极致的大模型系统的基础上进一步提升性价比的挑战性不言而喻。
为解决这一问题,大模型智能调度路由应运而生。其核心思想是将不同任务分配给最适合的大模型,以提升模型回复质量,同时避免 " 大炮打蚊子 " 而产生的资源浪费。
OpenAI 在最新推出的 GPT-5 中,首次在商业模型中引入的多模型调度路由机制:
在推理阶段,系统会根据任务特性和用户需求,动态切换低成本、低性能模型与高成本、强推理模型,实现性能与成本的灵活平衡。
这表明 GPT-5 会通过一个实时的路由器(Router)来动态决策,可以在保证绝大多数问题得到高效解答的同时,将复杂、困难的推理任务交给能力更强的模型处理,从而在系统层面实现性能与陈本的最佳平衡。
Avengers-Pro 多模型调度路由方案则是对 GPT-5 多模型调度路由机制的进一步拓展。
Avengers-Pro: 兼顾性能与成本,推动降本增效
Avengers-Pro 实现了对不同性能与成本的大模型进行统一集成与调度路由,为性能与成本的权衡提供了一站式解决方案,有效推动了大模型的降本增效。
其核心机制是通过对用户请求进行嵌入(embedding)和聚类(clustering)分析,动态匹配并分配最适合的模型来处理不同任务。
只需依靠少量用户请求 - 答案标签数据,Avengers-Pro 框架主要包括以下三个核心步骤:
嵌入 ( Embedding ) : 首先,该框架使用文本嵌入模型将用户请求转换成高维向量,捕捉其深层语义信息。
聚类 ( Clustering ) : 接着,该框架将这些语义向量进行聚类,将相似的问题或任务归为一个团簇。这使得系统能够理解不同类型任务的共性,例如 " 物理知识问答 "、" 网页制作代码生成 " 等。
评分 ( Scoring ) : 该框架会预先在每个聚类所得到的团簇(即每类任务)上评估模型池中所有模型的性能和成本。基于一个可调节的性能 - 成本权衡参数 α,系统为每个模型在个团簇上计算一个性能 - 成本综合评分。
推理时,Avengers-Pro 框架会首先将其归类到最相关的聚类中,并结合各模型在该聚类上的性能 - 成本综合评分,将请求动态分配给得分最高的模型。
通过调整参数 α(范围在 0 到 1 之间),系统可以在追求极致性能(α =1)与极致性价比(α =0)之间灵活切换,满足不同应用场景下对性能与成本的多样化需求。
实验表现:Avengers-Pro 比 GPT-5 更强,更便宜
在实验中,Avengers-Pro 集成了来自 4 个厂家的 8 个业界顶尖模型 :
OpenAI:GPT-5-chat, GPT-5-medium;
Anthropic:Claude-4.1-opus, Claude-4-sonnet;
Google:Gemini-2.5-pro, Gemini-2.5-flash;
阿里 : Qwen3-235B-A22B-thinking-2507, Qwen3-235B-A22B-2507。
评测场景由 6 个极具挑战性的数据集组成 : GPQA-Diamond, Human ’ s Last Exam, ARC-AGI, SimpleQA, LiveCodeBench, τ 2-bench,覆盖了代码生成、科学推理、智能体应用等。
Avengers-Pro 的整体性能优于任意单一模型。当权衡系数倾向于追求性能时,Avengers-Pro 的平均正确率为 0.66。
相比之下,模型池中最强的单一模型 GPT-5-medium 的平均正确率为 0.62。也就是说,Avengers-Pro 即使与当前性能最强的单模型对比,仍然实现了 7% 的性能提升。
Avengers-Pro 实现了性能 - 成本平衡,形成了帕累托前沿。通过灵活调整性能 - 成本权衡系数,当 Avengers-Pro 与 GPT-5-medium 性能持平时,能够节省高达 27% 的成本。
如果仅需达到 GPT-5-medium 90% 的性能,成本更是可降至仅 37%。
而在追求与 Gemini-2.5-Pro 相当的性能时,Avengers-Pro 甚至只需 19% 的超低成本即可实现。
并且,Avengers-Pro 在任何给定的成本水平上,都能提供最高的准确率;反之,对于任何给定的准确率目标,都能将成本控制在最低。
对性能 - 成本平衡系数的分析显示,随着系数从 0 逐渐提升到 1(追求性能),模型的性能和成本均逐步上升。
在不同的性能 - 成本权衡系数下,Avengers-Pro 能够根据不同模型的性能成本灵活进行任务分配。
当系数更倾向于成本时,Qwen 族的模型由于其较低的成本会被更多选择。
而当系数更倾向于性能时,GPT-5-medium 这一性能相对较强的模型会被更多选择。
在集成了多个大模型后,调度路由能实现大模型的降本增效:在性能上超越了模型池中最强的单一模型,并且在保证相同性能的情况下,能显著降低成本。
此外,面对不同的性能与成本权衡需求,可针对不同任务,灵活自动选择最合适的模型,全面满足多样化的应用场景。
Avergers-Pro 证明了在当前大模型生态下,智能调度路由方案的突出表现和巨大潜力。
智能路由理念也将在未来大模型应用中带来更多突破与惊喜。
论文地址:https://arxiv.org/abs/2508.12631
GitHub 地址:https://github.com/ZhangYiqun018/AvengersPro
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见