APP下载

关于ZAKER

Skills 合作

星途科讯 22分钟前

登顶开源榜首！Z.ai 发布 GLM-5.2，本地运行需 256GB 内存

开源模型领域的 " 王座 " 更迭频繁，本周的焦点属于中国实验室 Z.ai 推出的 GLM-5.2。凭借在独立 Artificial Analysis Intelligence Index（人工智能分析智能指数）中位列第一的成绩，这款模型并非仅靠营销上位。它采用 MIT 许可证，支持百万 token 上下文窗口，并引入了创新的架构设计。然而，高达 1.51 TB 的完整权重意味着，" 本地运行 " 这一概念在此有着极高的硬件门槛。

核心规格与性能表现

GLM-5.2 是一个混合专家（MoE）模型，总参数量达 7530 亿，但在处理每个 token 时仅激活约 400 亿参数。这种稀疏激活机制使得庞大模型的运行成为可能。作为纯文本模型，其上下文窗口从 GLM-5.1 的 20 万提升至 100 万 token。开源权重已于 2026 年 6 月 16 日在 Hugging Face 上公开。

在性能方面，GLM-5.2 以 51 分的成绩位居 Artificial Analysis Intelligence Index v4.1 榜首，领先于 MiniMax-M3、DeepSeek V4 Pro（均为 44 分）和 Kimi K2.6（43 分），成为该榜单上最强的开源权重模型。Z.ai 将其定位为代理式编程工具，声称在多项长周期编程基准测试中击败了 GPT-5.5，且成本更低。不过在直接的 Code Arena WebDev 榜单上，它排名第二，仅次于 Claude Fable 5，表现强劲但并非不可超越。

架构创新：IndexShare

GLM-5.2 的核心亮点在于名为 IndexShare 的架构创新。该技术在每个稀疏注意力层组中的四个层共享一个轻量级 " 索引器 "，索引器仅运行一次，其选出的 top-k token 会被后续三个层复用。据官方技术博客披露，这种设计使全量 100 万 token 上下文下的每 token 计算量（FLOPs）减少了 2.9 倍。此外，相关的投机解码（MTP）层调整可将接受长度提高多达 20%。这一协同设计旨在降低百万 token 上下文的服务成本，对长周期编程代理具有实质意义。

实际体验：强大但昂贵

独立评测显示，GLM-5.2 的表现总体积极但存在波动。在矢量插图生成等任务中表现令人印象深刻，但在某些图像描述任务上被认为较前代有所退步。社区普遍赞赏中国实验室公开研究成果的态度，尤其是在专有模型日益封闭的背景下。

在实际编程测试中，AI 硬件评论员 Bijan Bowen 进行了长达 33 分钟的会话，成功构建了包含复杂逻辑的 GTA 风格城市克隆版及 WebGL 效果。然而，瓶颈同样明显：Token 消耗巨大且生成速度慢。单个构建任务约消耗 43k 个输出 token（GLM-5.1 为 26k），无论是按量付费还是本地等待，成本均不容忽视。此外，使用托管 API 引发的数据驻留担忧，也促使部分用户转向本地部署以保障隐私。

硬件现实：你真的能运行它吗？

完整的 BF16 权重高达 1.51 TB，即使经过重度量化，GLM-5.2 也绝非普通消费级设备所能承载：

量化方式	所需内存	运行设备	实际情况
Q4_K_M ( 4-bit )	~476 GB	多 GPU 服务器 ( 2 × A100 80GB / 4 × RTX 6000 Ada )	仅限数据中心
2-bit dynamic ( Unsloth UD-IQ2_XXS )	~241 GB	256GB+ 统一内存 Mac Studio ( M3/M4 Ultra )	~3 – 9 tok/s
1-bit dynamic ( UD-TQ1_0 )	~176 GB	仍需 256GB；128GB 设备无法容纳	质量断崖式下跌

基于 Unsloth 的 GGUF 笔记，本地运行的选项极为有限：

本地运行 + 隐私保护：唯一可行的消费级方案是配备 256 – 512 GB 统一内存的 Mac Studio M3 Ultra。它可以容纳 2-bit 动态量化，生成速度约为 3 – 9 tokens/ 秒。这适用于异步代理任务，但对于实时聊天而言体验较差。注意，128GB 内存设备或 24GB 显存 GPU 均无法在任何可用量化级别下加载模型。

云端租赁：对于大多数用户，租用云 GPU 或直接调用 API 是更务实的选择。虽然牺牲了部分隐私优势，但避免了购置高昂硬件的成本。

成本核算：GLM-5.2 的使用成本具有两面性。API 价格约为 $4.40 / 百万输出 token，结合高 Token 消耗，重度使用开支不小。一台 256GB+ 的 Mac Studio M3 Ultra 前期投入约 $9,500，需大量 API 调用才能抵消硬件成本。云租赁则介于两者之间，每小时费用为数美元。

总结与建议

GLM-5.2 是一个里程碑式的模型：它是目前能力最强的开源权重模型之一，拥有真正的效率创新和百万 token 上下文能力。但 " 开源 " 不等于 " 易运行 "。除非你拥有 256GB+ 内存的 Mac Studio 并能忍受低速生成，否则租用算力或使用 API是更合理的选择。

适用人群：GLM-5.2 专为代理式编程和长周期、长上下文工作（如多文件重构、大型文档推理）而建。若你重视隐私或独立性，且具备相应硬件条件，它是一个严肃的工具。若你仅需快速的本地聊天或编程助手，24 GB 显卡上的 30B 类模型将是更快、更便宜且足够好的选择。在本地部署时，选择你能实际良好运行的最大模型，往往比盲目追求排行榜榜首更为明智。

【星途科讯图文丨赵晶首发于 ZAKER 科技，转载请注明出处】

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

登顶开源榜首！Z.ai 发布 GLM-5.2，本地运行需 256GB 内存

宙世代

一起剪

相关阅读

基金亏了卖不卖是个伪问题

直击盛合晶微业绩会：先进封装项目推进中，募投产能问题避而不谈

同一公司奖金差100倍！三星非半导体员工集体穿黑衣上班抗议

AI算力上游核心材料！群策科技闯港股，FCBGA载板本土市占率达25%

霍尔木兹海峡，免费通行！

日本央行副行长冰见野良三警告核心通胀率存在升破央行2%目标的风险

美国联邦电力监管：电网运营商需加速数据中心入网通电

补贴压制能源价格 日本通胀保持平稳

325亿公募资金鏖战定增 财通、诺德“双强”领跑

主动ETF来了 业务指引五大核心划重点

华尔街投行据悉筹备SpaceX至少200亿美元潜在债券发行

SpaceX获惠誉BBB+的投资级评级 展望为稳定

前SpaceX员工创立导弹初创企业，目标估值1200亿美元

市场监管总局督导货拉拉落实反垄断合规整改

信托“老将”换赛道！国投泰康信托傅强出任国投资本总经理

最新评论

星途科讯

热门推荐

企业资讯

补贴压制能源价格日本通胀保持平稳

325亿公募资金鏖战定增财通、诺德“双强”领跑

主动ETF来了业务指引五大核心划重点

SpaceX获惠誉BBB+的投资级评级展望为稳定