关于ZAKER 合作
量子位 34分钟前

真够卷的!DeepSeek 更完智谱更:GLM-4.6,代码国内最强

好好好,都赶着国庆节之前开卷是吧。

前脚 DeepSeek 更新到了 V3.2,现在智谱又更新了——

正式推出GLM-4.6,代码能力直接推到了国内最强

根据智谱的测试结果,他们在 Claude Code 环境下进行了 74 个真实场景编程任务测试:GLM-4.6 实测超过 Claude Sonnet 4,超越其他国产模型。

类似的结果还出现在了其它测评中。

例如在通用能力评测上,GLM-4.6 在 AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ ^2-Bench、GPQA,这八大榜单中大部分都已经对齐了 Claude Sonnet 4,国内第一。

分数高还只是一方面,智谱的 GLM-4.6 甚至还把" 平均 token 消耗 "给打了下来——比 GLM-4.5 节省 30% 以上,为同类模型最低。

而且智谱这次还大大方方地把全部测试题目与 Agent 轨迹亮了出来,方便大家复现验证:

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

有一说一,卷,是真的卷。

实测 GLM-4.6

根据量子位的老传统,新模型一出,那必须是得安排一波实测。

我们先小试牛刀地来一道题:

生成一个射击类的小游戏。

从实测体验来看,代码生成的速度是相当之快,不到一分钟,游戏就被设计出来了。

进阶一下,我们再让 GLM-4.6 再做一个交互动画:

用 p5js 创建多彩的可交互动画。

可以看到,鼠标点到哪里就会产生交互效果。

编程这块,我们最后来测一道经典的题目:

显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹。

嗯,小球是按照物理规律在运转。

在编程能力之后,我们再来测试一下 GLM-4.6 的数学能力。

请听一道 AIME 2025 的试题:

在这次测试中,我们是直接把题目截图 " 喂 " 给了 GLM-4.6,不仅考察了解数学题的能力,同时还检测了一下它识图的多模态能力。

可以看到,GLM-4.6 完美地给出了正解:70。

整体来看,智谱这次新模型能力提升可以概括如下:

高级编码能力:在公开基准与真实编程任务中,GLM-4.6 的代码能力对齐 Claude Sonnet 4,是国内已知的最好的 Coding 模型。

上下文长度:上下文窗口由 128K → 200K,适应更长的代码和智能体任务。

推理能力:推理能力提升,并支持在推理过程中调用工具。

搜索能力:增强了模型在工具调用和搜索智能体上的表现,在智能体框架中表现更好。

写作能力:在文风、可读性与角色扮演场景中更符合人类偏好。

寒武纪、摩尔线程都跟进了

昨晚 DeepSeek 更新的时候,一个新现象伴随着诞生——

很多国产芯片公司立即宣布"Day0 适配 "

这一现象在 GLM-4.6 身上也是发生了。

据了解,GLM-4.6 已经在寒武纪的国产芯片上实现了 FP8+Int4 的混合量化部署,这是国产芯片上第一次真正落地的 FP8+Int4 模型芯片一体化方案。

在保证精度不受影响的同时,还大幅降低了推理成本,也为国产芯片本地运行大模型提供了一条可行的新路径。

在 vLLM 推理框架的支持下,摩尔线程新一代 GPU 能够用原生 FP8 精度稳定运行 GLM-4.6,这充分体现了 MUSA 架构和全功能 GPU 在生态兼容性和快速适配上的优势。

接下来,GLM-4.6 将与寒武纪、摩尔线程的国产芯片组合,通过智谱 MaaS 平台正式对企业和大众开放服务。

最后,划个重点。

智谱在能力提升的同时,还把价格给打下来了!

智谱同步升级的 GLM Coding Plan(最低 20 元包月畅玩套餐):用 1/7 的价格,可以享受到 Claude 的 9/10 智商。

GLM-4.6 体验地址:

chat.z.ai

智谱 MaaS 平台:

bigmodel.cn

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签
gpu

最新评论

没有更多评论了