智谱+华为,这个组合刚刚搞了波大的:
开源新一代图像生成模型GLM-Image,是中国首个全程在国产芯片上完成训练的SOTA 多模态模型!
GLM-Image 尤其擅长文字渲染,像最近很火的 AI 手抄报、插画、海报都能信手拈来:


并且 GLM-Image 一出道就拿下了CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单的第一:

以及 LongText-Bench 中的中文、英文或平均分数,都位列开源模型中的第一。
除此之外,再划个重点:
用 GLM-Image 的 API 生成图片,现在一张图只要一毛钱(0.1 元)!
咱就是说,国产芯 + 国产模型,这次真的赢麻了。
图片里的汉字,稳稳拿捏住了
天下苦 AI 生图不识字已经久矣。
以前让 AI 画个海报,画面虽然美如画,但文字却是乱如麻:不是缺笔少划,就是自创火星文。
这次 GLM-Image 最大的卖点,可以说就是能读懂且写对。
那么接下来,我们就来给 GLM-Image 一些刁钻的难题,考验考验它的能力。
做小红书封面可以用 " 说 " 的
首先是咱们熟悉的 " 小红书风 "。
这种图片不仅要求审美在线,最关键的是标题要大、要醒目,还得和画面完美融合。
我们扔给 GLM-Image 一段描述比较笼统的描述,让它先来自我发挥一下:
Prompt:生成一张小红书封面,图文并茂,表达泰国旅游最全攻略,要有人物和风景,有趣的设计。

感觉 GLM-Image 已然 get 到了小红书封面的奥义,鲜艳的配色、醒目的文字,还有逼真的人物,一下子就让人想点进去了解一番。
还有小红书上比较流行的科普详解图,GLM-Image 可以根据智谱官方推文直接生成亮点内容图解:

而且 GLM-Image 原生支持 1024x1024 至 2048x2048 的任意比例输出。智谱开放平台体验中心提供了10 个尺寸的选项,可以适配各种类型的社交媒体平台。

假如你现在想要做一张有艺术感的商业广告大片,那么只要把你的想法转成 Prompt 即可,例如:
Prompt:大师级摄影,获奖作品,东方禅意,神秘氛围。中心构图,极致负空间留白,一位沉静内省的男性背影,戴浅色宽檐帽,处于绝对静止剪影状态。中景:浓雾弥漫充满全部画面。双重曝光,人物透明叠加于中景,透明晕染重叠,重叠处露出黄昏都市,暖金色暮光逆侧光,建筑轮廓与霓虹因慢门化作动态模糊、拖曳的暖黄色光轨。光影:黑柔滤镜,轮廓光勾勒帽檐肩线,面部阴影中有微妙的深灰至灰渐变,强烈明暗对比。色调:低饱和度暖调(浅棕、暖黄、灰绿,阴影泛青灰),富士怀旧负片胶片质感。后期:空气透视,朦胧诗意,印象派氛围。视觉张力,虚实结合,情绪氛围摄影,电影帧叙事。标语:" 流光过隙,我自静观。" 半透明标题 "SILENCE" 嵌入雾中。

Prompt:以中式酒饮为主题,搭配古朴松枝。场景为白色背景的展示台,营造典雅氛围。构图上,将酒瓶摆放于黑色怪石,白色花艺自然穿插点缀,突出层次。色彩以画面风格追求国风雅韵,借中式元素(传统绘画、松枝 )传递东方美学,背景简洁渐变,聚焦产品与国风意境融合,打造具有文化底蕴的茶饮展示效果 。酒瓶身自然地嵌入中文 " 松酒 "。

人物、场景,逼真得分不清是 AI
真实性,也是考验图片生成能力的重要因素。
接下来,我们就让 GLM-Image 生成几张真实人物的照片:
Prompt:一位男模特,行走于都市天台,风衣下摆被大风扬起,动态模糊,大场景,强透视,低角度仰拍,胶片粗颗粒质感,黑金色调,前卫艺术美学,力量感,高级感,时尚大片视角,8K,大师杰作。

我们再来试试一张有点影视剧照的风格:
Prompt:营造出优雅浪漫的古典闲适氛围。中国宋代古典装束、精致器物,搭配窗外的自然景致,传递出远离尘嚣的诗意与雅致,让观者感受到那份古典浪漫中的松弛感。超写实风格暗黑。

哦对了,在 GLM-Image 这里,多图拼接也是可以的哦 ~

看完效果,相信很多小伙伴要不禁问了:这到底是怎么做到的?
尤其是在目前高性能显卡受限的大背景下,GLM-Image 不仅做出来了,还号称是首个全程在国产芯片上完成训练的 SOTA 模型。
这背后的技术含金量,值得咱们好好聊一聊。
混血架构:自回归 + 扩散解码器
目前从大方向来看生图领域技术的发展,主要有两大流派:
扩散模型(Diffusion):比如 Stable Diffusion、Flux。擅长画细节,光影质感好,但理解复杂的全局指令(比如空间关系、多物体布局)比较吃力。
自回归模型(Autoregressive, AR):比如 DALL · E 3 的部分逻辑。擅长理解语言、规划布局,但在生成高分辨率图像的细节上,推理速度慢,且容易崩。
但 GLM-Image 的玩法是这样的:小孩子才做选择,成年人我全都要。
于是,它搞出了一个" 自回归 + 扩散解码器 "的混合架构,可以理解为一个大脑和笔画的组合:
大脑(9B 自回归模型):负责理解和规划。它先读懂你那几百字的复杂 Prompt,规划好哪里画人、哪里写字、排版怎么排。
画笔(7B DiT 扩散解码器):负责上色和精修。它接过 " 大脑 " 的草图,把细节填充得满满当当,保证画质细腻。
这就是为什么它在处理 CVTG-2K 这种榜单时能拿第一的原因。因为它不仅仅是在生成像素,而是在先理解布局,再填充内容。
华为 A2 芯片 +Mindspeed-LLM
这或许是这次发布内容中最为硬核的地方。
我们都知道,训练一个几十亿参数的 SOTA 模型,对算力的稳定性、通信带宽要求极高。以往大家默认只有英伟达的卡能干这事儿。
但 GLM-Image 却选择了国产:它全程基于华为 Ascend A2 芯片进行训练。
为了让这套国产硬件发挥出最大效能,智谱和华为配合,深度优化了Mindspeed-LLM框架。
全流程跑通:从海量数据的预处理,到大规模的预训练,再到最后的微调,全部在国产全栈算力底座上完成。
算子级优化:针对国产芯片的特性,重新写了底层算子,让训练效率直接起飞。

大规模集群的稳定性控制:RL 训练容易出现梯度爆炸或不稳定的情况。依托华为全栈算力底座,智谱实现了超大规模集群下的长时间稳定训练,确保了模型收敛的鲁棒性。
算子级深度重构:为了适配 RL 过程中特有的动态计算图,智谱与华为合作,重新编写了底层核心算子。这不仅提升了单卡效率,更让万卡级别的通信带宽利用率显著优化,解决了国产芯片在复杂后训练逻辑中的 " 水土不服 "。
异构计算的协同:利用昇思 MindSpore 框架,GLM-Image 在训练时实现了计算与通信的完美并行(Overlap),让模型在处理 2048 × 2048 这种超高分辨率图像的 RL 训练时,依然能保持高效的吞吐量。
这种深度适配带来的结果是显而易见的。GLM-Image 不仅是国产芯片训出来的,更是在国产算力极限压力测试下卷出来的 SOTA 模型。
值得一提的是,GLM-Image 并非仅在微调阶段使用国产芯片,而是从海量数据预处理、大规模预训练到最后的 RLHF 过程,全部在华为 Ascend A2 算力集群上完成。
它证明了国产算力底座 + 自研架构创新,完全可以支撑起 RL 这种最前沿、最复杂的模型优化路径。
分辨率的原生支持
还有一个技术细节也值得一提。
传统的模型,如果你想生成个长条图(比如 16:9)或者竖图(9:16),往往需要裁剪或者后期重绘,容易变形。
GLM-Image 改进了 Tokenizer 策略,原生支持从 1024x1024 到 2048 × 2048 的任意比例和分辨率。


国产自信的一次开源
在图像生成这个领域,大家似乎都习惯了盯着国外的 Flux、Midjourney、Ideogram 看。每当国外发布一个新模型,大家就感叹一句 " 差距又拉大了 "。
但 GLM-Image 的出现,是一次有力的回应,主要可以从三个方面来看:
打破垄断:它证明了 SOTA 级的模型效果,完全可以在国产芯片上实现。这给国内其他的 AI 开发者打了一针强心剂。
开源普惠:不仅仅是模型开源,它还把这种 " 自回归 + 扩散 " 的新架构思路分享了出来。对于想要研究下一代生图技术的人来说,这就是最好的教科书。
极致性价比:API 调用价格极其亲民,生成一张图的成本甚至不到一毛钱。这对于想要接入 AI 生图能力的中小企业、开发者来说,简直是降维打击。
Nano Banana 固然很好,但那毕竟是别人家的,还是闭源的那种。
但现在,我们有了自己的 Open Banana —— GLM-Image:开源的、国产算力训练的、懂中文、会写汉字的。
无论你是想做个不重样的小红书博主,还是想搞个自动生成海报的创业项目,或者单纯就是想体验一下国产之光的生图能力,GLM-Image 都值得你上手一试。
话不多说,赶紧去试试这个 " 国产大香蕉 " 到底香不香!
API 接入地址:
https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image
GitHub:
https://github.com/zai-org/GLM-Image
Hugging Face:
https://huggingface.co/zai-org/GLM-Image
魔搭社区:
https://modelscope.cn/models/ZhipuAI/GLM-Image
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见