市值近万亿，智谱，离不离谱？

内容来源：笔记侠 ( Notesman ) 。

责编 | 柒排版 | 沐言

第 9677篇深度好文：6983| 15 分钟阅读

商业思维

笔记君说：

智谱，赌对了。

就在昨天，智谱正式发布并开源了新一代旗舰模型 GLM-5.2，股价大涨，截止到今天收盘，市值达 9336 亿港元。

这款主攻"长程任务"的模型，让 AI 从"即时问答"跨越到"像人一样连续工作数小时"。在全球百万用户盲测的 Code Arena 上，GLM-5.2 拿下全球可用模型第一。

不仅如此，在编程能力上，GLM-5.2 的"使用体感"，已经和 Opus 级模型基本没有差别。

这不是突然的爆发，而是一场近十年的长跑。

从 2016 年在清华实验室定义"认知智能"，到 2022 年孤注一掷训练千亿模型，再到如今成为"全球大模型第一股"，张鹏和他的团队，始终在赌一个目标：AGI（通用人工智能，指能够在几乎任何领域像人类一样完成智力任务的人工智能，是许多 AI 公司的终极目标）。

今年年初，张小珺对智谱 CEO 张鹏进行了一场对谈，谈到了他从科学家到创业者的十年心路。

以下为访谈精编内容整理版，希望对你有所帮助。

一、从实验室到产业化

1.2016 年：认知智能的起点

我的履历非常简单，从 98 年进清华就没离开过，毕业以后在清华大学计算机系知识工程实验室工作，一直做人工智能相关的事情。

2015、16 年，到了一个很关键的节点。我们看到上一代 AI 企业非常成功，但也面临一些问题。

那时候大家对于未来 AI 技术的演进看得更远，会觉得像 CV ( 计算机视觉）、早期的 NLP（自然语言处理）和机器学习这些方法，天花板可能就在这了，做不到理想中的通用人工智能。

所以，那时候逐渐有了一点想法：我们要去做下一代人工智能。

结论就是产生了一个词，叫认知智能（指在感知智能基础上具备理解、推理、规划等高级认知能力的下一代人工智能）。我们认为认知智能是感知智能的下一代，是迈向通用人工智能的下一个台阶。它并不等同于 AGI，但如果是下一步，我可以尝试去定义它。

16 年已经在考虑创业，真正开始行动是 17 年，尝试在学校体制下把商业化转化路径走通。契机是 18 年，国家几个部委联合给了一个意见，允许科研院所在职人员用已有的研究成果做科技成果转化。

2. 早期商业化：科技情报与认知能力

我们一开始就做科技情报这件事，情报学本质上就是认知能力的一种应用。

科技类信息相对规范，论文、科技报告、专利都有规范性格式，描述严谨，有数据。算法是我们擅长的，我们就建立起一个模型来交付。

传统做法是靠专家，大量调研问卷、阅读文献、写报告，靠专家经验去解决问题。我们是用机器学习算法、用模型来解决问题。效率和处理数据的速度完全不一样。

大公司找我们做技术预测，问题很简单：未来 3 到 5 年，在某个领域里哪些技术会成为热点？预测这种事，一定是要基于认知的。我们当时那个平台叫 Aminer，在国际上影响力不错，而且我们专门做这一块。

所以当时出来创业，本质上是在做背后核心的技术，怎么用数据、机器学习算法去构建模型。它跟现在大模型解决的问题非常类似，只是用了上一代的机器学习方法。

那时候也挣钱，但肯定还是亏着的。科技成果转化完成后，第一笔天使投资很快就拿到了。

我们跟投资人讲的逻辑很清晰：

第一，我们要做认知智能，做下一代 AI 技术；

第二，在这个基础上我们找到了场景，有产品和平台，有不错的用户基础和市场基础，已经在学校服务了很多客户。

二、技术路线转折

1.GPT-3 发布，请张钹院士来座谈

19 年公司成立时，我们已经在做机器学习算法的研究。

像 BERT（Google 在 2018 年提出的预训练语言模型，采用双向注意力机制，擅长理解上下文，通常被形容为 " 完形填空 " 式模型）这类大模型上一代的东西，一直在用、在研究，所以很早就关注到 GPT。GPT-1 是 18 年，GPT-2 是 19 年，已经在学术界有影响。2020 年 GPT-3 发布，是个分水岭。

正好公司一周年，我们请张钹（中国科学院院士、计算机应用专家）来座谈。我当时关注着最新研究进展，就提出来说 GPT-3 很火，想听听张院士怎么看。

他评价非常高，说这是机器学习里程碑式的进步，有一种新的范式。但他也担心一个问题：GPT 还是不知道自己不知道。那个时候，大家也开玩笑说 GPT-3 会一本正经地胡说八道。

所以，从那时起，我们开始重点研究这个方向。

2.GLM 的诞生：综合 BERT 和 GPT

我们就研究 GPT 自回归预训练和 BERT 到底有什么区别。GLM 算法（通用语言模型，智谱自研的模型架构）在 21 年相对成熟，做了一年。

那时候业内并没有高度统一认为 GPT 路线就是唯一正确的，大家还在想有没有办法走出新的创新。GLM 就是在 BERT 和 GPT 之间，想综合两种算法优势。

BERT 是双向注意力，称为填空机器人；GPT 是单向的，只看前面预测下一个，称为蹦词器。

GLM 综合的方式很巧妙，把问题统一了，把双向往中间预测的词的顺序调一下，实际上就变成了单向往后预测，既保留了双向注意力的优势，也融合了单向预测能力。

所以 GLM 出来时，既能做填空题，也能做续写预测。而且由于采用了部分双向注意力，训练过程中稳定性更好。

三、关键赌注：

训练千亿模型

1. 要不要投千万训练模型

22 年，我们开始决策要不要像 GPT-3 一样做千亿模型。

那时候 Scaling（规模定律，描述模型性能随参数量、数据量和计算量增加而呈现出可预测提升的现象，后扩展到推理时计算、强化学习等维度）很简单，参数量翻倍、翻十倍，智能水平就上去了。GPT-3 训练成本 2000 多万美元，我们自己做估计也得千万级人民币以上。

要不要做？慎重考虑之后，结论是：应该做，必须自己做。

科学家团队起了很大作用，GLM 的研究积累让我们有信心能把模型训练出来，性能不会差，不会让钱打水漂。从 21 年 12 月底开始，大半年时间，到 22 年七八月份弄完，大概 9 个月。

那时候开始跟投资人聊，讲我们训练了一个对标 GPT-3 的模型，性能不错，还开源了。投资人听不懂，完全听不懂。

" 这什么东西？怎么挣钱？怎么商业化？" 甚至有个投资人线上聊，说大环境这么差，要不你们把估值降一半？但我们肯定不会啊。那个时间其实挺艰难。

2.ChatGPT 时刻：浪潮来临

22 年 11 月 ChatGPT 上线后，一下子火起来了。ChatGPT 火起来后，大家也不用质疑我们在做什么了。我们就说，你看 ChatGPT 知道吧？我们做的就是往这个方向去的。

后来，投资人就主动找过来了。我们自己很快也把对标 ChatGPT 的 ChatGLM 弄出来上线，尤其在中文上效果非常好。还同时开源了一个小的 6B 版本，60 亿参数，一张家用 GPU 就能跑起来，那是我们第一款在开源社区爆火的项目，下载量非常大。

那时候 OpenAI 还比较开放，很多东西发论文，后来论文少了，但 technical report 和 blog 还会慢慢放出来。我们紧跟着研究。

再加上清华学生在那边很多，底下的交流非常顺畅，我们知道他们在持续做事情、往哪个方向走。

所以 ChatGPT 出来，至少我个人还是挺兴奋的。觉得赌对了，第一赌对了，第二说明这条路走下去，是有很光明的前景的。

3. 百模大战：兴奋与焦虑

23 年一转年，浪就来了。最深的印象就是那三个字：百模大战。圈内圈外全进来了，很多熟识的人都站到了这个赛道上。

我的感受是两个。

第一个是兴奋，这个事迎来了巨大的机会和浪潮，不用再教育市场和投资人了。

第二个，说实话，我个人还是有些焦虑和担心。因为每逢大浪过来，再往后看，可能就是一地狼藉，最后留不下什么。

我怕的是整个市场从一个极端走向另一个极端，塌掉之后很难再回来。

市场都没了，你做得再好也没用。我们看到太多这种事，大量的资本和人进来，但大家分辨不清谁说的是对的、更接近真相，谁是在吹故事、吹泡泡。

23 年最大的挑战，就是怎么在纷纷扰扰的商业化市场中，保证技术快速迭代，同时找到自己的路。

基本上 23 年我们把商业化的架子搭起来了—— MaaS（模型即服务，一种将 AI 模型作为服务交付的商业化形态，包括云 API 调用、本地化部署、软硬一体产品等多种模式）有了，to B 企业服务有了，开源有了，研究进展也有了，GLM2、GLM3 发布很紧密。

四、商业化路径：

MaaS、toB 与 toC 的取舍

1.MaaS 的提出

千亿模型训练完之后，我们就在想商业化路径到底怎么走。MaaS（模型即服务）这个概念是我们最早提的，那时候我们定义的 MaaS 比现在大部分人理解的范围要广。

现在大家说 MaaS 都是指云 API，但我们当时说的形态更丰富：除了云上 API，还有本地化部署，把模型当作随意可部署的组件；还有软硬件结合、可以随时拎到哪的产品。

怎么收缩成云 API 了呢？我觉得云厂商功不可没，他们想往这个方向引，因为这是他们的主战场。

2. 为什么没有全力做 toC？

当时分析，如果直接照搬 ChatGPT 或 OpenAI 那套模式到国内，除非你能抢到巨大的首发市场优势，否则很难。

在那个群雄割据、混战的局面下，最后必然陷入倒贴、引流、补贴、让用户白薅羊毛的状态。中国 C 端市场的付费意愿还是太差。

我们后来做了智谱清言 APP，也投过流。我们把它定位成效率工具，看用户使用曲线很有意思，跟上班上学的时间完全重叠。早上 8 点到中午 12 点，下午 1 点到五六点，晚上很少。算完 ROI 之后，这是很不合算的一件事。

3.toB 的确定性更高

toB 这件事，确定性其实更高。故事可能没那么性感，账没那么好算，但相对比较 stable（稳定）

中国 SaaS 起不来有它的特殊性，有人跟我讲过一句话：我花同样的钱，买订阅一个月 10 万块，还不如用 10 万块雇 10 个人帮我把活干了。这本质还是成本问题。

但 toB 有溢价空间。我们是做这个技术的，对技术本身的理解更深。别人也能做类似的事，但可能需要更高成本。我们可能只需要更少的人、更短的周期，就能达到更好的效果。这就是我们的溢价空间。

五、坚持走开源路线

1. 一直坚持走开源路线

我们基本上没有摇摆过，一直坚持开源。所有关键模型迭代和技术更新，都有相应的开源版本或开源项目。

早期我们把开源和商业化分得很清楚：

开源是把核心技术放出去，让大家能用、了解细节，在此基础上去做自己的创新探索；商业化是面向客户的，提供的不是开源那堆参数文件，而是基于这些东西的一系列产品、工具和服务。

2.DeepSeek 彻底开源带来的冲击

DeepSeek 彻底开源后，大家可以基于他的研究成果去做很多事情。对我们商业化市场的影响是，很多客户脑子里把开源和免费划等号了。他会问：你都开源了、不要钱了，为什么还收我钱？

那怎么办？只能用时间来证明。

很多客户自己去尝试部署，有的找外面团队帮忙。但过了一段时间，你会发现大部分人掉头回来了。

为什么？因为 DeepSeek 也不提供商业化服务。就算你部署了，也没有办法跟内部系统做整合，这需要很专业的服务和人来干。对不起，原厂也不提供这个服务。当大家想通商业本质的核心锚点是什么的时候，自然会回来找你。

3. 开源加速了智力平权

开源可能加速了整个智力平权的过程，技术不可能只掌握在极少数公司或个人手里。中国厂商大家都开源，其实给世界提供了更多选择。

就算没有开源，最终结局可能也是美国走一条路，商业公司捏着顶尖闭源模型来推动资本积累运转，全球其他玩家去寻找第二、第三甚至更多选择。中国的战略，肯定不会放弃这个路径。

4.DeepSeek 带来的反思

DeepSeek 对我们的影响还是比较大的。不管研究、工程还是市场层面，我们都仔仔细细内部研讨过。也算反思，确实给了很多启示和提醒，学到很多东西。

结论是，应该更开放地看待大模型的研究和市场。这些因素都搅在一起，很难完全理清楚或分隔开。需要各方协同，以更开放的态度来做。我们自己的研究方向要更坚定。

DeepSeek 出来提醒我们，强化学习（一种机器学习范式，让智能体在环境中通过试错、获取奖励或惩罚信号来学习最优策略，在大模型领域常用于对齐和提升推理能力）这块下的力气还不够，它的主要贡献就是强化学习有新策略和方法出现；工程优化还可以做得更极致、更底层；下一个范式的探索，应该可以更大胆地去想象。

六、管理进化：

从 50 人到 800 人的坎

1. 张钹院士的三个坎

张钹院士见多识广，跟我们讲过，创业企业有几个坎：

第一个坎 50 人，一般能挺过去，比较简单，挣到钱就行，亏不亏的不关键；

第二个坎 200 人；

第三个坎可能是 500 甚至更多。

这几个坎决定了生死。

亲身经历完再回头看，确实非常有道理。关键不在具体数字，而在于代表的企业发展阶段。

第一阶段是建立团队信心，别先散了。

第二阶段企业开始有分工：商业化的、研发的、做产品的，分工之后产生管理成本和管理消耗，协调不好就可能分崩离析。

到了几百人规模，开始出现分层，信息传导越来越长，对齐越来越难，管理成本越来越高。

2. 当公司有人你叫不出名字

原来在 100 多人时，所有人我都认识，叫得出名字，知道干什么的。搬公司后，公司里就有一批人我叫不出名字了。

这不是落差，而是产生管理上的空白地带，你靠个人已经不可能 cover 了。要更花精力在机制体制运转、定规章制度的方面，而不是什么事都在视线范围内。

3. 最折磨的事：认知对齐

最折磨的，还是来自对很多事情的不熟悉。大规模做商业化之后，面临很多以前没碰到的挑战，也没人能告诉你怎么处理。

怎么让你和对方的认知对齐？这个过程挺折磨的，要花很多精力去沟通、去交流、去拉齐认知，一遍又一遍重复很多话。很多客户我都是到一线去跟他们讲。

七、我们的目标就是 AGI

1. 不是简单的商业化，是探索 AGI

为什么我们要讲从 2016 年开始的那个故事？就是想传递一个信息：智谱不是单纯想成立个公司挣钱，本愿还是在于探索 AGI 到底是什么。

我们认为，在产业里做这件事，更符合当下 AI 发展的需求 , 不是简单做研究，也不是简单去挣钱。技术的往前演进是一条主旋律，商业化是另一条主旋律，在 AI 当下的生态里，这两者没办法完全分隔开。

25 年初，我们大概有三个预测：

第一，基座模型能力持续提升，甚至是多模态（指模型能够同时理解和处理文本、图像、音频、视频等多种类型的数据，而非仅限于文字）或多种数据融合的混合型基座模型；

第二，智能体（能自主感知环境、制定计划、调用工具并执行多步任务的 AI 系统，被视为大模型从对话走向真实世界落地的关键路径）是很重要的方向；

第三，国际化。

现在回头看，一一验证了。未来我们要继续赌，只有一件事情，就是 AGI。

拆解到短期，智能体非常非常重要，解决了模型到真正实际应用的落地路径问题；第二个是新的 scaling law 或新计算范式，像 RL 这块会持续有新的范式诞生。

2." 曲线救国 " 没有必要

我不喜欢所谓的曲线救国 , 先找到一个确定性的市场和商业化路径，挣回大笔钱，再投入去追求 AGI，我觉得没必要。

信仰这个东西，想要坚持下去本来就是件很难的事。我不喜欢为自己绕路找一个理由。很容易忘记原来坚持的东西。从技术角度看，也不是说某个单点突破了，就能真正帮助到 AGI 的实现。

我们的本质，用公司的 slogan 就能解释：让机器像人类一样思考。

但最终，能思考的机器还是要反过头来赋能人类，让人类社会更美好，这就是工程师文化。做一家实现了 AGI 的公司，和做一家利润很高的公司，我当然选实现 AGI。而且我相信，如果我们能实现 AGI，仅从商业化来说，也会是一家伟大的公司。

3.AGI 还有多远？

我认为 2027 年可能开始具备 AGI 这个能力：造出一个脑子，各种能力都有，能跟世界交互，交互结果反馈回来变成强化信号，立刻接受信号再学习修改模型，这样闭环起来。

但理性的判断，可能需要 5 年、8 年这样的时间。我们永远不会忘记，我们的目标就是 AGI。

结语

我的硕士导师跟我们讲过一句话，我一直记得：机会永远是留给有准备的人的。哪怕你在海上漂着，有一块木板从眼前飘过，你也要扑腾两下才能抓住。

精准预测未来会发生什么、什么时间点发生，这很难，不可能有针对性地准备。那什么叫做好准备？

只有日复一日、年复一年，坚持做你认为正确的事情，不要懈怠，不断积累，沿着你认为正确的路走下去，而且不被噪声干扰。当机会来的时候，你就有能力去抓住它。

所以我们一方面是幸运的，这几年时机、环境都站在我们这边，也认识了很多志同道合的朋友。

另一方面，也得益于我们一直在积累、一直在做好准备，能抓得住机会。

中国人讲天时地利人和，要成就一些事情，缺一不可。

参考资料：《全球大模型第一股的上市访谈，和智谱 CEO 张鹏聊：敢问路在何方？》，张小珺商业访谈录，哔哩哔哩。

* 文章为作者独立观点，不代表笔记侠立场。

在 AI 席卷一切的今天，这件事更加急迫。所以我们筹备了整整半年，把过去一年跑通的所有 AI 原生落地的认知、案例、实战经验，浓缩成了 3 天的 AI 十倍增长营，6 月 24-26 日在北京开营。

三天里，我们一步一步落地：

第一天搭班子：搞懂什么是真正的 AI 增长团队，每个人亲手做出第一个能干活的业务 Agent；

第二天做诊断：对着真实的业务痛点，画出专属的 AI 行动地图；

第三天练闭环：把所有流程跑通，最后带走一套能直接开干的方案。

这篇文章讲的四件事，三天全覆盖。而且不是光听课，是动手干。

建议你一定要带着核心高管和技术负责人一起来。一个人来，最多是听了个热闹，回去根本推不动；一个班子来，才是真正带一支训练有素的增长战队回家。

同时还有猎豹移动董事长傅盛、知名 CEO 顾问王赛、影刀 RPA 创始人十布领衔，以及云飞、星若这些在森马、蒙牛真正在一线拿过结果的实战导师带队，不讲空的，只讲自己踩过的坑、验证过的方法。

首期我们只开放少量席位，欢迎立即扫码报名，把公司变成 AI 十倍增长组织。

好文阅读推荐：

哈萨比斯最新震撼预言：留给旧世界的时间，不到 2000 天

阿里为什么选了这个年轻人来管钉钉？

分享、点赞、在看，3 连 3 连！

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

市值近万亿，智谱，离不离谱？

宙世代

一起剪

最新评论

笔记侠

企业资讯