关于ZAKER Skills 合作
星途科讯 22分钟前

登顶开源榜首!Z.ai 发布 GLM-5.2,本地运行需 256GB 内存

开源模型领域的 " 王座 " 更迭频繁,本周的焦点属于中国实验室 Z.ai 推出的 GLM-5.2。凭借在独立 Artificial Analysis Intelligence Index(人工智能分析智能指数)中位列第一的成绩,这款模型并非仅靠营销上位。它采用 MIT 许可证,支持百万 token 上下文窗口,并引入了创新的架构设计。然而,高达 1.51 TB 的完整权重意味着," 本地运行 " 这一概念在此有着极高的硬件门槛。

核心规格与性能表现

GLM-5.2 是一个混合专家(MoE)模型,总参数量达 7530 亿,但在处理每个 token 时仅激活约 400 亿参数。这种稀疏激活机制使得庞大模型的运行成为可能。作为纯文本模型,其上下文窗口从 GLM-5.1 的 20 万提升至 100 万 token。开源权重已于 2026 年 6 月 16 日在 Hugging Face 上公开。

在性能方面,GLM-5.2 以 51 分的成绩位居 Artificial Analysis Intelligence Index v4.1 榜首,领先于 MiniMax-M3、DeepSeek V4 Pro(均为 44 分)和 Kimi K2.6(43 分),成为该榜单上最强的开源权重模型。Z.ai 将其定位为代理式编程工具,声称在多项长周期编程基准测试中击败了 GPT-5.5,且成本更低。不过在直接的 Code Arena WebDev 榜单上,它排名第二,仅次于 Claude Fable 5,表现强劲但并非不可超越。

架构创新:IndexShare

GLM-5.2 的核心亮点在于名为 IndexShare 的架构创新。该技术在每个稀疏注意力层组中的四个层共享一个轻量级 " 索引器 ",索引器仅运行一次,其选出的 top-k token 会被后续三个层复用。据官方技术博客披露,这种设计使全量 100 万 token 上下文下的每 token 计算量(FLOPs)减少了 2.9 倍。此外,相关的投机解码(MTP)层调整可将接受长度提高多达 20%。这一协同设计旨在降低百万 token 上下文的服务成本,对长周期编程代理具有实质意义。

实际体验:强大但昂贵

独立评测显示,GLM-5.2 的表现总体积极但存在波动。在矢量插图生成等任务中表现令人印象深刻,但在某些图像描述任务上被认为较前代有所退步。社区普遍赞赏中国实验室公开研究成果的态度,尤其是在专有模型日益封闭的背景下。

在实际编程测试中,AI 硬件评论员 Bijan Bowen 进行了长达 33 分钟的会话,成功构建了包含复杂逻辑的 GTA 风格城市克隆版及 WebGL 效果。然而,瓶颈同样明显:Token 消耗巨大且生成速度慢。单个构建任务约消耗 43k 个输出 token(GLM-5.1 为 26k),无论是按量付费还是本地等待,成本均不容忽视。此外,使用托管 API 引发的数据驻留担忧,也促使部分用户转向本地部署以保障隐私。

硬件现实:你真的能运行它吗?

完整的 BF16 权重高达 1.51 TB,即使经过重度量化,GLM-5.2 也绝非普通消费级设备所能承载:

量化方式所需内存运行设备实际情况
Q4_K_M ( 4-bit ) ~476 GB多 GPU 服务器 ( 2 × A100 80GB / 4 × RTX 6000 Ada ) 仅限数据中心
2-bit dynamic ( Unsloth UD-IQ2_XXS ) ~241 GB256GB+ 统一内存 Mac Studio ( M3/M4 Ultra ) ~3 – 9 tok/s
1-bit dynamic ( UD-TQ1_0 ) ~176 GB仍需 256GB;128GB 设备无法容纳质量断崖式下跌

基于 Unsloth 的 GGUF 笔记,本地运行的选项极为有限:

本地运行 + 隐私保护:唯一可行的消费级方案是配备 256 – 512 GB 统一内存的 Mac Studio M3 Ultra。它可以容纳 2-bit 动态量化,生成速度约为 3 – 9 tokens/ 秒。这适用于异步代理任务,但对于实时聊天而言体验较差。注意,128GB 内存设备或 24GB 显存 GPU 均无法在任何可用量化级别下加载模型。

云端租赁:对于大多数用户,租用云 GPU 或直接调用 API 是更务实的选择。虽然牺牲了部分隐私优势,但避免了购置高昂硬件的成本。

成本核算:GLM-5.2 的使用成本具有两面性。API 价格约为 $4.40 / 百万输出 token,结合高 Token 消耗,重度使用开支不小。一台 256GB+ 的 Mac Studio M3 Ultra 前期投入约 $9,500,需大量 API 调用才能抵消硬件成本。云租赁则介于两者之间,每小时费用为数美元。

总结与建议

GLM-5.2 是一个里程碑式的模型:它是目前能力最强的开源权重模型之一,拥有真正的效率创新和百万 token 上下文能力。但 " 开源 " 不等于 " 易运行 "。除非你拥有 256GB+ 内存的 Mac Studio 并能忍受低速生成,否则租用算力或使用 API是更合理的选择。

适用人群:GLM-5.2 专为代理式编程和长周期、长上下文工作(如多文件重构、大型文档推理)而建。若你重视隐私或独立性,且具备相应硬件条件,它是一个严肃的工具。若你仅需快速的本地聊天或编程助手,24 GB 显卡上的 30B 类模型将是更快、更便宜且足够好的选择。在本地部署时,选择你能实际良好运行的最大模型,往往比盲目追求排行榜榜首更为明智。

【星途科讯 图文丨赵晶 首发于 ZAKER 科技,转载请注明出处】

相关标签
星途科讯

星途科讯

解码海外,科技新知

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容