关于ZAKER Skills 合作
观点新媒体 1小时前

智谱披露 GLM-5 底层基建进展 修复方案被 SGLang 社区采纳

观点网讯:4 月 30 日,智谱发布技术博客《Scaling Pain:超大规模 Coding Agent 推理实践》,首次系统披露 GLM-5 系列模型在超大规模 Coding Agent 调用场景下的底层推理技术突破。

据介绍,针对 Context Parallel 策略中的 KV Cache 冗余存储问题,智谱设计实现了 KV Cache 分层存储方案 LayerSplit,每张 GPU 仅持有部分层的 KV Cache,通过广播机制完成协同计算。在 Cache 命中率 90% 条件下,40K 至 120K 请求长度区间内,系统吞吐量提升 10% 至 132%,且上下文越长收益越显著。

信息显示,智谱团队不仅在自有推理链路中定位并修复了 PD 分离架构下的 KV Cache 跨节点复用竞态,更在开源推理框架 SGLang 源代码层面修复了 HiCache 模块的加载时序缺失问题,修复方案已被 SGLang 开源社区采纳。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容