

责编 | 柒 排版 | 沐言
第 9677篇深度好文:6983| 15 分钟阅读
商业思维
笔记君说:
智谱,赌对了。
就在昨天,智谱正式发布并开源了新一代旗舰模型 GLM-5.2,股价大涨,截止到今天收盘,市值达 9336 亿港元。
这款主攻"长程任务"的模型,让 AI 从"即时问答"跨越到"像人一样连续工作数小时"。在全球百万用户盲测的 Code Arena 上,GLM-5.2 拿下全球可用模型第一。
不仅如此,在编程能力上,GLM-5.2 的"使用体感",已经和 Opus 级模型基本没有差别。
这不是突然的爆发,而是一场近十年的长跑。
从 2016 年在清华实验室定义"认知智能",到 2022 年孤注一掷训练千亿模型,再到如今成为"全球大模型第一股",张鹏和他的团队,始终在赌一个目标:AGI(通用人工智能,指能够在几乎任何领域像人类一样完成智力任务的人工智能,是许多 AI 公司的终极目标)。
今年年初,张小珺对智谱 CEO 张鹏进行了一场对谈,谈到了他从科学家到创业者的十年心路。
以下为访谈精编内容整理版,希望对你有所帮助。
一、从实验室到产业化
1.2016 年:认知智能的起点
我的履历非常简单,从 98 年进清华就没离开过,毕业以后在清华大学计算机系知识工程实验室工作,一直做人工智能相关的事情。
2015、16 年,到了一个很关键的节点。我们看到上一代 AI 企业非常成功,但也面临一些问题。
那时候大家对于未来 AI 技术的演进看得更远,会觉得像 CV ( 计算机视觉)、早期的 NLP(自然语言处理)和机器学习这些方法,天花板可能就在这了,做不到理想中的通用人工智能。
所以,那时候逐渐有了一点想法:我们要去做下一代人工智能。
结论就是产生了一个词,叫认知智能(指在感知智能基础上具备理解、推理、规划等高级认知能力的下一代人工智能)。我们认为认知智能是感知智能的下一代,是迈向通用人工智能的下一个台阶。它并不等同于 AGI,但如果是下一步,我可以尝试去定义它。

2. 早期商业化:科技情报与认知能力
我们一开始就做科技情报这件事,情报学本质上就是认知能力的一种应用。
科技类信息相对规范,论文、科技报告、专利都有规范性格式,描述严谨,有数据。算法是我们擅长的,我们就建立起一个模型来交付。
传统做法是靠专家,大量调研问卷、阅读文献、写报告,靠专家经验去解决问题。我们是用机器学习算法、用模型来解决问题。效率和处理数据的速度完全不一样。

所以当时出来创业,本质上是在做背后核心的技术,怎么用数据、机器学习算法去构建模型。它跟现在大模型解决的问题非常类似,只是用了上一代的机器学习方法。
那时候也挣钱,但肯定还是亏着的。科技成果转化完成后,第一笔天使投资很快就拿到了。
我们跟投资人讲的逻辑很清晰:
第一,我们要做认知智能,做下一代 AI 技术;
第二,在这个基础上我们找到了场景,有产品和平台,有不错的用户基础和市场基础,已经在学校服务了很多客户。
二、技术路线转折
1.GPT-3 发布,请张钹院士来座谈
19 年公司成立时,我们已经在做机器学习算法的研究。
像 BERT(Google 在 2018 年提出的预训练语言模型,采用双向注意力机制,擅长理解上下文,通常被形容为 " 完形填空 " 式模型)这类大模型上一代的东西,一直在用、在研究,所以很早就关注到 GPT。GPT-1 是 18 年,GPT-2 是 19 年,已经在学术界有影响。2020 年 GPT-3 发布,是个分水岭。
正好公司一周年,我们请张钹(中国科学院院士、计算机应用专家)来座谈。我当时关注着最新研究进展,就提出来说 GPT-3 很火,想听听张院士怎么看。
他评价非常高,说这是机器学习里程碑式的进步,有一种新的范式。但他也担心一个问题:GPT 还是不知道自己不知道。那个时候,大家也开玩笑说 GPT-3 会一本正经地胡说八道。

2.GLM 的诞生:综合 BERT 和 GPT
我们就研究 GPT 自回归预训练和 BERT 到底有什么区别。GLM 算法(通用语言模型,智谱自研的模型架构)在 21 年相对成熟,做了一年。
那时候业内并没有高度统一认为 GPT 路线就是唯一正确的,大家还在想有没有办法走出新的创新。GLM 就是在 BERT 和 GPT 之间,想综合两种算法优势。
BERT 是双向注意力,称为填空机器人;GPT 是单向的,只看前面预测下一个,称为蹦词器。

所以 GLM 出来时,既能做填空题,也能做续写预测。而且由于采用了部分双向注意力,训练过程中稳定性更好。
三、关键赌注:
训练千亿模型
1. 要不要投千万训练模型
22 年,我们开始决策要不要像 GPT-3 一样做千亿模型。
那时候 Scaling(规模定律,描述模型性能随参数量、数据量和计算量增加而呈现出可预测提升的现象,后扩展到推理时计算、强化学习等维度)很简单,参数量翻倍、翻十倍,智能水平就上去了。GPT-3 训练成本 2000 多万美元,我们自己做估计也得千万级人民币以上。
要不要做?慎重考虑之后,结论是:应该做,必须自己做。

那时候开始跟投资人聊,讲我们训练了一个对标 GPT-3 的模型,性能不错,还开源了。投资人听不懂,完全听不懂。
" 这什么东西?怎么挣钱?怎么商业化?" 甚至有个投资人线上聊,说大环境这么差,要不你们把估值降一半?但我们肯定不会啊。那个时间其实挺艰难。
2.ChatGPT 时刻:浪潮来临
22 年 11 月 ChatGPT 上线后,一下子火起来了。ChatGPT 火起来后,大家也不用质疑我们在做什么了。我们就说,你看 ChatGPT 知道吧?我们做的就是往这个方向去的。
后来,投资人就主动找过来了。我们自己很快也把对标 ChatGPT 的 ChatGLM 弄出来上线,尤其在中文上效果非常好。还同时开源了一个小的 6B 版本,60 亿参数,一张家用 GPU 就能跑起来,那是我们第一款在开源社区爆火的项目,下载量非常大。
那时候 OpenAI 还比较开放,很多东西发论文,后来论文少了,但 technical report 和 blog 还会慢慢放出来。我们紧跟着研究。
再加上清华学生在那边很多,底下的交流非常顺畅,我们知道他们在持续做事情、往哪个方向走。
所以 ChatGPT 出来,至少我个人还是挺兴奋的。觉得赌对了,第一赌对了,第二说明这条路走下去,是有很光明的前景的。
3. 百模大战:兴奋与焦虑
23 年一转年,浪就来了。最深的印象就是那三个字:百模大战。圈内圈外全进来了,很多熟识的人都站到了这个赛道上。
我的感受是两个。
第一个是兴奋,这个事迎来了巨大的机会和浪潮,不用再教育市场和投资人了。
第二个,说实话,我个人还是有些焦虑和担心。因为每逢大浪过来,再往后看,可能就是一地狼藉,最后留不下什么。
我怕的是整个市场从一个极端走向另一个极端,塌掉之后很难再回来。
市场都没了,你做得再好也没用。我们看到太多这种事,大量的资本和人进来,但大家分辨不清谁说的是对的、更接近真相,谁是在吹故事、吹泡泡。
23 年最大的挑战,就是怎么在纷纷扰扰的商业化市场中,保证技术快速迭代,同时找到自己的路。

四、商业化路径:
MaaS、toB 与 toC 的取舍
1.MaaS 的提出
千亿模型训练完之后,我们就在想商业化路径到底怎么走。MaaS(模型即服务)这个概念是我们最早提的,那时候我们定义的 MaaS 比现在大部分人理解的范围要广。
现在大家说 MaaS 都是指云 API,但我们当时说的形态更丰富:除了云上 API,还有本地化部署,把模型当作随意可部署的组件;还有软硬件结合、可以随时拎到哪的产品。
怎么收缩成云 API 了呢?我觉得云厂商功不可没,他们想往这个方向引,因为这是他们的主战场。
2. 为什么没有全力做 toC?
当时分析,如果直接照搬 ChatGPT 或 OpenAI 那套模式到国内,除非你能抢到巨大的首发市场优势,否则很难。
在那个群雄割据、混战的局面下,最后必然陷入倒贴、引流、补贴、让用户白薅羊毛的状态。中国 C 端市场的付费意愿还是太差。
我们后来做了智谱清言 APP,也投过流。我们把它定位成效率工具,看用户使用曲线很有意思,跟上班上学的时间完全重叠。早上 8 点到中午 12 点,下午 1 点到五六点,晚上很少。算完 ROI 之后,这是很不合算的一件事。
3.toB 的确定性更高
toB 这件事,确定性其实更高。故事可能没那么性感,账没那么好算,但相对比较 stable(稳定)

但 toB 有溢价空间。我们是做这个技术的,对技术本身的理解更深。别人也能做类似的事,但可能需要更高成本。我们可能只需要更少的人、更短的周期,就能达到更好的效果。这就是我们的溢价空间。
五、坚持走开源路线
1. 一直坚持走开源路线
我们基本上没有摇摆过,一直坚持开源。所有关键模型迭代和技术更新,都有相应的开源版本或开源项目。
早期我们把开源和商业化分得很清楚:
开源是把核心技术放出去,让大家能用、了解细节,在此基础上去做自己的创新探索;商业化是面向客户的,提供的不是开源那堆参数文件,而是基于这些东西的一系列产品、工具和服务。
2.DeepSeek 彻底开源带来的冲击
DeepSeek 彻底开源后,大家可以基于他的研究成果去做很多事情。对我们商业化市场的影响是,很多客户脑子里把开源和免费划等号了。他会问:你都开源了、不要钱了,为什么还收我钱?
那怎么办?只能用时间来证明。
很多客户自己去尝试部署,有的找外面团队帮忙。但过了一段时间,你会发现大部分人掉头回来了。
为什么?因为 DeepSeek 也不提供商业化服务。就算你部署了,也没有办法跟内部系统做整合,这需要很专业的服务和人来干。对不起,原厂也不提供这个服务。当大家想通商业本质的核心锚点是什么的时候,自然会回来找你。
3. 开源加速了智力平权
开源可能加速了整个智力平权的过程,技术不可能只掌握在极少数公司或个人手里。中国厂商大家都开源,其实给世界提供了更多选择。

4.DeepSeek 带来的反思
DeepSeek 对我们的影响还是比较大的。不管研究、工程还是市场层面,我们都仔仔细细内部研讨过。也算反思,确实给了很多启示和提醒,学到很多东西。
结论是,应该更开放地看待大模型的研究和市场。这些因素都搅在一起,很难完全理清楚或分隔开。需要各方协同,以更开放的态度来做。我们自己的研究方向要更坚定。
DeepSeek 出来提醒我们,强化学习(一种机器学习范式,让智能体在环境中通过试错、获取奖励或惩罚信号来学习最优策略,在大模型领域常用于对齐和提升推理能力)这块下的力气还不够,它的主要贡献就是强化学习有新策略和方法出现;工程优化还可以做得更极致、更底层;下一个范式的探索,应该可以更大胆地去想象。
六、管理进化:
从 50 人到 800 人的坎
1. 张钹院士的三个坎
张钹院士见多识广,跟我们讲过,创业企业有几个坎:
第一个坎 50 人,一般能挺过去,比较简单,挣到钱就行,亏不亏的不关键;
第二个坎 200 人;
第三个坎可能是 500 甚至更多。
这几个坎决定了生死。
亲身经历完再回头看,确实非常有道理。关键不在具体数字,而在于代表的企业发展阶段。
第一阶段是建立团队信心,别先散了。
第二阶段企业开始有分工:商业化的、研发的、做产品的,分工之后产生管理成本和管理消耗,协调不好就可能分崩离析。
到了几百人规模,开始出现分层,信息传导越来越长,对齐越来越难,管理成本越来越高。
2. 当公司有人你叫不出名字
原来在 100 多人时,所有人我都认识,叫得出名字,知道干什么的。搬公司后,公司里就有一批人我叫不出名字了。
这不是落差,而是产生管理上的空白地带,你靠个人已经不可能 cover 了。要更花精力在机制体制运转、定规章制度的方面,而不是什么事都在视线范围内。

3. 最折磨的事:认知对齐
最折磨的,还是来自对很多事情的不熟悉。大规模做商业化之后,面临很多以前没碰到的挑战,也没人能告诉你怎么处理。
怎么让你和对方的认知对齐?这个过程挺折磨的, 要花很多精力去沟通、去交流、去拉齐认知,一遍又一遍重复很多话。很多客户我都是到一线去跟他们讲。
七、我们的目标就是 AGI
1. 不是简单的商业化,是探索 AGI
为什么我们要讲从 2016 年开始的那个故事?就是想传递一个信息:智谱不是单纯想成立个公司挣钱,本愿还是在于探索 AGI 到底是什么。
我们认为,在产业里做这件事,更符合当下 AI 发展的需求 , 不是简单做研究,也不是简单去挣钱。技术的往前演进是一条主旋律,商业化是另一条主旋律,在 AI 当下的生态里,这两者没办法完全分隔开。
25 年初,我们大概有三个预测:
第一,基座模型能力持续提升,甚至是多模态(指模型能够同时理解和处理文本、图像、音频、视频等多种类型的数据,而非仅限于文字)或多种数据融合的混合型基座模型;
第二,智能体(能自主感知环境、制定计划、调用工具并执行多步任务的 AI 系统,被视为大模型从对话走向真实世界落地的关键路径)是很重要的方向;
第三,国际化。
现在回头看,一一验证了。未来我们要继续赌,只有一件事情,就是 AGI。
拆解到短期,智能体非常非常重要,解决了模型到真正实际应用的落地路径问题;第二个是新的 scaling law 或新计算范式,像 RL 这块会持续有新的范式诞生。
2." 曲线救国 " 没有必要
我不喜欢所谓的曲线救国 , 先找到一个确定性的市场和商业化路径,挣回大笔钱,再投入去追求 AGI,我觉得没必要。

我们的本质,用公司的 slogan 就能解释:让机器像人类一样思考。
但最终,能思考的机器还是要反过头来赋能人类,让人类社会更美好,这就是工程师文化。做一家实现了 AGI 的公司,和做一家利润很高的公司,我当然选实现 AGI。而且我相信,如果我们能实现 AGI,仅从商业化来说,也会是一家伟大的公司。
3.AGI 还有多远?
我认为 2027 年可能开始具备 AGI 这个能力:造出一个脑子,各种能力都有,能跟世界交互,交互结果反馈回来变成强化信号,立刻接受信号再学习修改模型,这样闭环起来。
但理性的判断,可能需要 5 年、8 年这样的时间。我们永远不会忘记,我们的目标就是 AGI。
结语
我的硕士导师跟我们讲过一句话,我一直记得:机会永远是留给有准备的人的。哪怕你在海上漂着,有一块木板从眼前飘过,你也要扑腾两下才能抓住。
精准预测未来会发生什么、什么时间点发生,这很难,不可能有针对性地准备。那什么叫做好准备?
只有日复一日、年复一年,坚持做你认为正确的事情,不要懈怠,不断积累,沿着你认为正确的路走下去,而且不被噪声干扰。当机会来的时候,你就有能力去抓住它。
所以我们一方面是幸运的,这几年时机、环境都站在我们这边,也认识了很多志同道合的朋友。
另一方面,也得益于我们一直在积累、一直在做好准备,能抓得住机会。
中国人讲天时地利人和,要成就一些事情,缺一不可。
参考资料:《全球大模型第一股的上市访谈,和智谱 CEO 张鹏聊:敢问路在何方?》,张小珺商业访谈录,哔哩哔哩。
* 文章为作者独立观点,不代表笔记侠立场。
在 AI 席卷一切的今天,这件事更加急迫。所以我们筹备了整整半年,把过去一年跑通的所有 AI 原生落地的认知、案例、实战经验,浓缩成了 3 天的 AI 十倍增长营,6 月 24-26 日在北京开营。
三天里,我们一步一步落地:
第一天搭班子:搞懂什么是真正的 AI 增长团队,每个人亲手做出第一个能干活的业务 Agent;
第二天做诊断:对着真实的业务痛点,画出专属的 AI 行动地图;
第三天练闭环:把所有流程跑通,最后带走一套能直接开干的方案。
这篇文章讲的四件事,三天全覆盖。而且不是光听课,是动手干。
建议你一定要带着核心高管和技术负责人一起来。一个人来,最多是听了个热闹,回去根本推不动;一个班子来,才是真正带一支训练有素的增长战队回家。
同时还有猎豹移动董事长傅盛、知名 CEO 顾问王赛、影刀 RPA 创始人十布领衔,以及云飞、星若这些在森马、蒙牛真正在一线拿过结果的实战导师带队,不讲空的,只讲自己踩过的坑、验证过的方法。
首期我们只开放少量席位,欢迎立即扫码报名,把公司变成 AI 十倍增长组织。

分享、点赞、在看,3 连 3 连!