关于ZAKER 合作
太平洋电脑网 20小时前

智谱发布 GLM-5.1:将大模型能力从短时交互延伸至 8 小时级自治工程任务

【太平洋科技快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1,该模型可独立完成最长 8 小时的长程自治任务,在多项代码基准测试中实现国产模型领先。

伴随 GLM-5.1 发布,智谱对 GLM 系列价格上调 10%。调价后,Coding 场景缓存 Token 价格接近 Claude Sonnet4.6,成为国产大模型首次在核心场景与海外头部厂商实现定价对齐。

8 小时持续工作,代码性能超越 Opus 4.6

GLM-5.1 定位为长程任务智能体,可在单次任务中自主规划、执行与迭代,连续稳定工作超 8 小时,官方介绍称是目前唯一达到该水平的开源模型。该模型在 SWE-bench Pro 测试中刷新全球成绩,超越 GPT-5.4 与 Claude Opus 4.6,实现国产模型在该硬核指标上的首次突破。

在 Terminal-Bench 2.0、NL2Repo 等代码评测中,GLM-5.1 位列国产及开源模型第一,具备高质量工程开发与系统优化能力。

可完成系统构建、数据库优化等高阶工程任务

8 小时构建 Linux 桌面:全自动执行 1200 余步操作,完成窗口管理器、状态栏、应用生态等完整功能交付,等效 4 人团队一周工作量。

向量数据库优化:经 655 轮自主迭代,将查询吞吐从 3108 QPS 提升至 21472 QPS,性能提升约 6.9 倍。

主动的系统优化器:在 KernelBench 测试中实现 3.6 倍平均加速,显著优于传统 torch.compile 方案,支持 CUDA 与 Triton 内核深度调优。

延长有效工作窗口

GLM-5.1 重点优化长时任务稳定性,可在优化收益停滞时主动分析瓶颈、切换技术路径,而非重复增量调整。该模型解决了传统模型在数千次工具调用后出现的执行漂移问题,在无明确量化指标的场景中仍具备自我评估与持续改进能力。

智谱表示,该模型为全自治智能体( 7 × 24 小时自治运行)奠定基础,后续将持续在自我评估、上下文一致性等方向迭代。

相关标签

相关阅读

最新评论

没有更多评论了
太平洋科技

太平洋科技

PConline官方号,以科技敬生活。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容