【太平洋科技快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1,该模型可独立完成最长 8 小时的长程自治任务,在多项代码基准测试中实现国产模型领先。

8 小时持续工作,代码性能超越 Opus 4.6
GLM-5.1 定位为长程任务智能体,可在单次任务中自主规划、执行与迭代,连续稳定工作超 8 小时,官方介绍称是目前唯一达到该水平的开源模型。该模型在 SWE-bench Pro 测试中刷新全球成绩,超越 GPT-5.4 与 Claude Opus 4.6,实现国产模型在该硬核指标上的首次突破。
在 Terminal-Bench 2.0、NL2Repo 等代码评测中,GLM-5.1 位列国产及开源模型第一,具备高质量工程开发与系统优化能力。
可完成系统构建、数据库优化等高阶工程任务
8 小时构建 Linux 桌面:全自动执行 1200 余步操作,完成窗口管理器、状态栏、应用生态等完整功能交付,等效 4 人团队一周工作量。
向量数据库优化:经 655 轮自主迭代,将查询吞吐从 3108 QPS 提升至 21472 QPS,性能提升约 6.9 倍。
主动的系统优化器:在 KernelBench 测试中实现 3.6 倍平均加速,显著优于传统 torch.compile 方案,支持 CUDA 与 Triton 内核深度调优。
延长有效工作窗口
GLM-5.1 重点优化长时任务稳定性,可在优化收益停滞时主动分析瓶颈、切换技术路径,而非重复增量调整。该模型解决了传统模型在数千次工具调用后出现的执行漂移问题,在无明确量化指标的场景中仍具备自我评估与持续改进能力。
智谱表示,该模型为全自治智能体( 7 × 24 小时自治运行)奠定基础,后续将持续在自我评估、上下文一致性等方向迭代。