关于ZAKER 合作
51CTO技术栈 21小时前

没卡没感情!智谱张鹏坦承 GLM 涨价苦衷:龙虾让推理成本涨了十倍百倍!罗福莉:算力限制催生中国极致效率!无问芯穹:infra 也将智能体化

编辑 | 云昭

杨植麟罕见出来主持 Panel了!

3月27日,在中关村论坛现场,月之暗面创始人兼CEO 杨植麟亲自下场主持了一场"OpenClaw与开源AI圆桌"。

嘉宾阵容相当豪华:智谱CEO 张鹏、无问芯穹联合创始人夏立雪、小米MiMo大模型负责人罗福莉、香港大学教授黄超。

整场圆桌听下来,有三个部分:OpenClaw带来了怎样的冲击和想象空间;Agent时代不同赛道的厂商都在如何应对和狂奔;未来12月,全球AI圈的挑战和突破方向。

如何看待OpenClaw带来的变化?

作为主持人,杨植麟用近期大火的"OpenClaw"作为开场热身。

几位嘉宾给出了非常有价值含量的看法。

张鹏认为,他认为OpenClaw类Agent之所以产生冲击,本质是让非程序员也能调用顶级模型能力,本质上是"脚手架化"的能力封装。他甚至表示,他在平时交流中,更愿意把OpenClaw称作一个脚手架。

它提供了这样一种可能性:在模型的基础之上搭起一个牢固、方便又灵活的脚手架,大家可以按照自己的意愿去使用底层模型提供的很多新奇的东西。

罗福莉补充了一个独特的观察角度:想象力的延伸。她认为,OpenClaw这个框架带来了一种随时随地的想象力延伸。Claude Code可能最开始只能在桌面上延展创意,但在OpenClaw里,开发者可以随时随地延展想法。

夏立雪则从Infra的角度,去判断后OpenClaw时代的变化。他表示,OpenClaw 带来的爆炸式的token消耗量的增长。他以自己公司为例:从一月底开始,基本上每两周token用量就翻一番,到现在已经翻了十倍。

夏立雪忍不住表示:上次见到这种速度,还是当年3G时代手机流量增长的那种感觉。

但"龙虾"同时也带来了很严峻的Infra挑战:资源供给明显跟不上需求增长。

"现在的token用量,就像当年每个月只有一百兆手机流量的那个时代一样,所有资源都需要更好的优化和整合,让每一个人都能把OpenClaw这样的AI能力用起来。"

因此,夏立雪表示,行业必须在算力调度、资源优化和系统效率上进行全面升级,以支撑AI能力的规模化普及。

作为重度 Agent 开源项目开发者,黄超表示:OpenClaw第一次为Agent带来了活人感,而且它正在用一种轻量级的开源操作系统生态撬动整个AI生态工具。

Token爆炸时代,不同层玩家都在忙什么

至于第二part,杨植麟抛出了一个更为紧要的问题,后龙虾时代,模型层、应用层、基础算力层,都在忙着做什么?

在这一环节,智谱张鹏还被当场质问了一个问题:GLM最近涨价了!

张鹏对此做了回应。他强调最近更新的 GLM-5 Turbo 的优化方向已经从"回答问题"转向"完成任务",关键能力包括:长链路任务规划能力、持续自主loop执行、debug与上下文压缩能力。

在Agent任务模式下,单任务token消耗可能是传统问答的10倍甚至百倍,因此模型提价并非策略选择,而是成本回归。

这显然也是一个明确的行业信号:token消耗正在成为真实成本中心。

而罗福莉则从一个更偏结构性的视角,回答了Agent时代,中国大模型团队的独特优势。

她提到:中国大模型团队的独特优势源于对低端算力和带宽限制的突破。过去两年,算力受限反而催生了对模型效率的极致追求(如 DeepSeek 的细粒度 MoE 结构)。

而且,她认为,这种创新不再是"为效率妥协",而是演变为在同等算力下追求最高智能水平的技术路径,为国内团队带来了技术自信。

而面向Agent的下一代的模型架构会是什么方向?她认为,一方面,模型会继续向更高效的架构演进,这里她提及了 hybrid sparse、linear attention 以及小米研发的 high sparse 架构。

她指出,这些新架构区别于前代,旨在解决 Agent 场景下对模型推理性能和响应速度的更高要求。

另一方面,罗福莉还特别提到了超长上下文与模型自迭代的关系。 她认为超长上下文不仅是记忆机制,更是实现模型"进化"的基础。通过在极长场景下处理复杂任务和轨迹(trajectory),模型可以实现对参数或 Agent 框架本身的自迭代。

当然,这些快速创新有一个共同的前置前提:开源!

作为基础设施侧代表,无问芯穹夏立雪给出了短、中、长期的建设方向。

在他看来,当前以Claude等模型驱动的Agent应用正在显著放大token消耗,行业正进入一个算力需求快速膨胀的阶段。这种增长并非线性,而是接近"基础设施被突然拉高一个数量级"的冲击,使得系统效率、成本结构以及调度能力都面临重新设计的压力。

面对这一趋势,他强调短期内的核心任务仍是"token工厂化"能力建设,即通过异构算力统一调度、软硬件协同优化以及模型与芯片的深度适配,最大化现有资源的利用效率。

对此,他表示这一阶段的本质是对分散算力资源进行系统性整合,让每一份算力都能被更高效地转化为token产出。

但更关键的判断在于,他认为传统云计算体系本质上仍是围绕"人类工程师操作习惯"构建的基础设施,而Agent时代的任务特征已发生根本变化,从分钟级任务调度跃迁至毫秒级并发决策。

在这一结构性错位下,简单的云架构叠加已无法支撑Agent的运行逻辑,必须向"Agentic Infra"演进,即一种面向AI行为模式重构的算力投放系统。

因此,在更长周期的设想中,他进一步提出基础设施自身"智能体化"的可能性:未来算力系统不仅被调用,还将具备自我优化与自我决策能力,由类似"AI CEO"的智能体统一调度资源,并实现实现AI-to-AI的直接通信与协同,从而形成一个自演化的基础设施组织形态。

作为应用与框架开发者,黄超提到了Agent开发问题目前在解决的三个工程瓶颈:

1. Planning问题:复杂长链路任务规划能力不足,本质是缺乏领域隐性知识。

2. Memory问题:长任务下memory快速膨胀,且存在检索失真问题,目前仍依赖弱结构(如文件系统)。

3. Skill/Tool问题:工具生态质量参差不齐,存在安全风险与低质量调用干扰。

他进一步提出一个趋势判断:Agent Swarm(多Agent系统)正在出现,但也会带来指数级上下文与协作复杂度问题。

未来12个月,AI圈的四个关键词

在panel最后,四位嘉宾探讨了未来12个月的发展趋势。他们各自给出了一个关键词,但小编看来,拼凑在一起便是未来一年AI圈各个层面即将迎来的快速变化。

黄超则强调了生态。他认为 Agent 必须从单纯的"个人助手"演变为真正的"数字同事"(Co-worker),进入实质性的生产力阶段。

他认为软件开发将从面向人类的 GUI(图形界面)转向面向 Agent 的CLI/MCP 原生模式

同时,他呼吁整个生态(模型、技能平台、工具)共同开源,打造支持 Agent 深度沉淀的土壤。

罗福莉的答案是自进化。她认为 Agent 框架激活了预训练模型的智能上限。通过"设定目标 + 条件约束 + 持续反馈"的闭环,模型已能自主运行数日进行自我优化。

这种自进化能力不再只是替代现有体力,而是像顶尖科学家一样探索未知,如寻找更优模型结构等。

她分享到其团队的研究效率已借此提升近10 倍,并预判这一范式将在未来 1-2 年内辐射至更多学科。

夏立雪给出的关键词是:可持续 Token。他特别强调了一点,AI 的长久生命力取决于"能源—算力—Token—GDP"这条链路的经济化迭代,确保全球范围内的资源整合与稳定供应。

同时,他表示,我们需要将中国在能源和算力上的优势转化为优质、低价、大规模的 Token 输出,打造"AI 版中国制造"。

最幽默也最现实的回答,要属张鹏的回答:算力。"有卡有感情,没卡没感情。"

他表示,未来 12 个月最大的挑战依然是算力,尤其是推理算力。

随着 Agent 框架让生产力爆发,背后隐藏的是百倍增长的 Token 需求。强调如果算力跟不上,响应太慢或成本太高,再好的技术愿景也无法真正触达用户,"没卡没感情"的困境在推理侧依然严峻。

小编语:杨植麟透露的一个信号

当然,杨植麟虽然不是观点输出者,但小编也从他在总结环节Get到了一点:

整个模型圈在今年忙着做什么?

杨植麟在总结嘉宾演讲时,提到了一个极为重要的面向复杂任务智能体时代的"双轨路径":模型层面提升原生上下文能力,系统层面搞定 Harness:通过planning、memory,包括multi-agent的harness,在模型能力一定的情况下支持更复杂的任务。

好了,全场三大部分,通读下来,非常畅快!向国产的AI Infra、模型、框架和应用层的玩家们致敬!

以下是小编在不改变原意的基础上梳理的精彩观点,enjoy:

张鹏:更愿意将"龙虾"称为脚手架

杨植麟(主持人):

很高兴邀请到各位嘉宾,大家分别来自模型、算力到Agent等不同层面。今天想围绕"开源"和"Agent"展开讨论。先抛出第一个问题:在使用OpenClaw或类似Agent产品时,大家印象最深或最有想象力的体验是什么?从技术角度看,你们如何理解它们的演进?先从张鹏开始。

张鹏:其实我很早就开始自己玩这个东西了,当时还不叫OpenClaw,最早叫Claude Bot。毕竟我是程序员出身,折腾这些东西有一些自己的体验。我觉得它带给大家最大的突破点,在于这件事情不再是程序员或者极客们的专利,普通人也可以比较方便地使用顶尖模型的能力,尤其是在编程和智能体方面。所以到现在为止,我在跟大家交流的过程中,更愿意把OpenClaw这件事称作一个脚手架,它提供的是一种可能性。在模型的基础之上搭起一个牢固、方便又灵活的脚手架,大家可以按照自己的意愿去使用底层模型提供的很多新奇的东西。原来自己的一些想法,受限于不会写代码或者缺乏某些技能,今天终于可以通过很简单的交流就把它完成。这对我来说是一个非常大的冲击,让我重新认识了这件事情。

夏立雪:"龙虾"有点类似于3G手机时代的到来

夏立雪:我最开始用OpenClaw的时候其实不太适应,因为我习惯于和大模型聊天的那种交流方式,结果发现OpenClaw反应好像比较慢。但后来我意识到一个关键的不同,它不是一个聊天机器人,而是一个能够帮我完成大型任务的助手。当我开始给它提交更复杂的任务之后,发现它其实能做得很好。这件事给我一个很大的感触,就是AI从最开始按token聊天,到现在能够作为一个Agent帮你完成任务,对整个AI的想象力空间做了一个很大的提升。但与此同时,它对整个系统的能力要求也变得很高,这也是我一开始用会觉得卡顿的原因。

作为基础设施层的厂商,我看到OpenClaw为整个AI后续的大型系统和生态带来了更多机遇和挑战,因为现在所有能用到的资源,想要支撑起这样一个快速增长的时代是不够的。就拿我们公司来说,从一月底开始,基本上每两周token用量就翻一番,到现在已经翻了十倍。上次见到这种速度,还是当年3G时代手机流量增长的那种感觉。现在的token用量,就像当年每个月只有一百兆手机流量的那个时代一样,所有资源都需要更好的优化和整合,让每一个人都能把OpenClaw这样的AI能力用起来。所以作为基础设施领域的从业者,我对这个时代非常激动,认为其中有很多值得去探索和尝试的优化空间。

罗福莉:OpenClaw框架给Agent带来了丰富的想象力和空间

罗福莉:我把OpenClaw视为Agent框架上一个非常革命性和颠覆性的事件。虽然我知道身边深度使用编程工具的人,第一选择可能还是Claude Code,但我相信只有用过OpenClaw的人才能独特地感受到,这个框架在设计上有很多地方是领先于Claude Code的,包括最近Claude Code的很多更新,其实都是在向OpenClaw靠近。对我自己来说,OpenClaw这个框架带来更多的是一种随时随地的想象力延伸。Claude Code可能最开始只能在桌面上延展创意,但在OpenClaw里我可以随时随地延展想法。

我后来发现,OpenClaw核心价值在于两点:第一是它开源,开源对整个社区深度参与、持续改进Agent框架是一个非常重要的前置条件。第二,像OpenClaw这样的Agent框架,它很大的价值在于把国内水平接近但略逊于闭源模型的这一赛道上的模型上限拉得非常高,在绝大部分场景里任务完成度已经非常接近Claude最新的模型。同时它又通过Harness系统或者Skills体系等诸多设计,把下限保证得非常好。从基座大模型的角度来说,它保证了下限,同时也拉升了上限。此外,我认为它给整个社区带来的更大价值,是点燃了大家对模型之外的那一层的热情,让大家发现Agent这一层有非常多的想象力和空间可以发挥。这也让社区里越来越多除研究员以外的人参与到AGI的变革当中,更多人接触到更强的Agent框架,一定程度上在替代自己重复性的工作,释放时间去做更有想象力的事情。

黄超:OpenClaw第一次为Agent带来了活人感

用轻量级的开源OS生态撬动整个生态工具

黄超:从交互模式上来讲,我觉得OpenClaw这次爆火,首先是因为给大家一种更有活人感的感觉。我们其实做Agent也有一两年了,但之前包括Cursor、Claude Code这些Agent,大家感受到的更多是一种工具感。OpenClaw第一次以IM软件嵌入的交互方式,让大家更有一种活人感,更接近于自己想象中的个人贾维斯那样的概念,这是交互模式上的突破。

另外它给大家带来的一个启发是,Agent Loop这种非常简单但高效的框架,再次被证明是行之有效的。同时它也让我们重新思考,究竟是需要一个all-in-one的非常强大的智能体帮我们做很多事情,还是需要一个像轻量级操作系统或脚手架一样的小管家。OpenClaw的答案是,通过这样一个轻量级的操作系统生态,去撬动整个生态里所有的工具。随着Skills和Harness这些机制的普及,越来越多的人可以设计面向OpenClaw这类系统的应用,赋能各行各业。这与整个开源生态天然结合得非常紧密,我觉得这两点是它带给我们最大的启发。

智谱回应 GLM5 提价:推理成本消耗的token更高了

杨植麟(主持人):顺着这个话题,我们刚才一直在讨论 OpenClaw。我想问一下张鹏,智谱最近也发布了新的 GLM-5 Turbo 模型,据了解在 Agent 能力上有明显增强。能不能给大家介绍一下这个新模型和以往模型的主要区别?另外,我们也注意到这次有一个提价的动作,这背后释放了什么样的市场信号?

张鹏:这是一个很好的问题。我们前两天确实做了一次比较紧急的更新,但它其实是我们整体演进路线中的一个阶段性结果,只是提前释放出来了。

这次升级最核心的方向,是让模型从"对话工具"真正走向"干活的工具"。正如大家刚才提到的,像 OpenClaw 这样的产品,已经让行业开始意识到,大模型不再只是聊天,而是可以实际执行任务

但"干活"这件事,对模型能力的要求是完全不一样的。它需要具备长程任务规划能力,要能持续自主运行、不断压缩上下文、进行 debug,还要处理多模态信息等。这些能力和传统偏"对话导向"的通用模型有明显差异。

所以在 GLM-5 Turbo 上,我们针对这些 Agent 场景做了专门强化,尤其是长任务的持续执行能力,也就是在复杂任务中能够稳定地循环执行(loop)而不中断,这部分我们投入了很多优化。

另外一个大家很关注的问题是 token 消耗。让一个更聪明的模型去完成复杂任务,实际消耗的 token 数量是非常高的,这一点可能用户在使用时不一定直观感受到,但在账单层面会很明显。

因此我们也做了效率优化,在面对复杂任务时,用更高的 token 利用效率去完成同样的工作。

从架构上看,它本质上仍然是一个多任务协同的通用模型,只是在能力分布上做了更偏向 Agent 场景的强化。

至于提价这件事,其实也很顺畅地能跟大家解释。现在不再是简单的一问一答,背后的思考链路很长,还要通过写代码的方式跟底层基础设施打交道、随时debug和纠错。完成一个任务需要的token量,可能是原来回答一个简单问题的十倍甚至百倍。模型变得更大,推理成本相应提高,所以我们把价格回归到正常的商业价值上。长期靠低价竞争不利于整个行业发展,这样才能持续在商业化路径上形成良性闭环,不断优化模型能力,持续给大家提供更好的模型和相应的服务。

无问芯穹:

推理时代,Infra厂商要打造更高效的token工厂

Infra甚至本身就应该是一个Agent

杨植麟(主持人):这个分享很有启发。现在开源模型和推理算力正在逐步形成一个完整生态,不同开源模型也可以运行在多种推理算力之上,为用户带来更丰富的选择和价值。

与此同时,随着 token 定价体系的变化,我们似乎也在从"训练时代"逐步迈入"推理时代"。想请教一下立雪,从基础设施(infra)的角度来看,这个推理时代对无问芯穹意味着什么?

夏立雪:我们是一家诞生在 AI 时代的基础设施公司,目前在为 Kimi、智谱等模型提供服务,也在与 MiniMax 等团队合作,核心目标是帮助大家更高效地使用我们这套"token 工厂"。

同时,我们也和很多高校、科研院所保持合作,所以一直在思考一个问题:在 AGI 时代,真正需要的基础设施到底应该长什么样?以及我们如何一步一步把它构建出来、验证出来。

从我们的判断来看,这个方向其实已经有了比较清晰的阶段划分:短期、中期和长期各自要解决的问题是不一样的,我们也基本做好了相应的准备。

就当下而言,最紧迫的挑战还是像 Claude 这类模型带来的 token 需求爆发式增长,这对整个系统的效率提出了更高要求。某种程度上,价格的上升,本质也是这种需求压力在供给侧的一种反馈。

我们一直以来都是从软硬件打通的方式来布局和解决这个问题。我们接入了几乎所有种类的计算芯片,把国内十几种芯片和几十个不同的算力集群统一连接起来。这样,当资源不足时,我们能做到两件事:第一,把能用的资源都用起来;第二,让每一个算力都用在刀刃上,发挥出最大的转化效率。所以当前阶段我们要解决的核心问题,就是如何打造一个更高效的token工厂。为此我们做了很多优化,包括让模型与硬件在显存等方面实现最优适配,也在探索在最新的模型结构和硬件结构下能否产生更深度的化学反应。

不过,解决当前的效率问题,我们只是打造了一个标准化的token工厂。面向Agent时代,这还远远不够。就像刚才说的,Agent更像一个人,你可以交给他一项任务。我坚定地认为,当前云计算时代的很多基础设施,是为服务程序、服务人类工程师而设计的,而不是为AI设计的。现在的状态有点像:我们搭了一套基础设施,上面留了一个为人类工程师设计的接口,然后在这上面再包一层去接入Agent。这种方式实际上是用人类操作的能力边界,限制了Agent的发挥空间。

举个例子,Agent能够在秒级甚至毫秒级思考并发起任务,但我们之前的底层K8S这些能力并没有为此做好准备,因为人类发起任务大概是分钟级别的。所以我们需要进一步构建我们称之为Agentic Infra的能力,打造一个更智慧化的算力投放工厂。这是无问芯穹现在正在做的事情。

从更长远的未来来看,真正AGI时代到来的时候,我们认为连基础设施本身都应该是一个智能体,应该能够自我进化、自我迭代,形成一个自主的组织。相当于有一个CEO,这个CEO是一个Agent,比如一个Claude在管理整个基础设施,根据AI客户的需求自己提需求、迭代自己的基础设施。只有AI与AI之间才能更好地形成耦合。所以我们也在做一些让Agent与Agent之间更好通信的事情,比如cache to cache这样的复制能力。

我们一直认为,基础设施与AI的发展不应该是隔离的状态,而应该产生非常丰富的化学反应。这才是真正的软硬协同,真正的算法与基础设施协同。这也是无问芯穹一直想实现的使命。

罗福莉:Agent时代模型结构创新十足重要

杨植麟(主持人):接下来想请教一下福莉。小米最近发布了新的模型,并且也开源了部分底层技术,我理解这对整个社区是一个很重要的贡献。

想问一下,小米在做大模型这件事上,有哪些相对独特的优势?

罗福莉:我想先稍微扩展一下这个问题,不只是谈小米的优势,而是从更整体的角度,聊聊中国做基座大模型团队的共同优势,我觉得这个视角更有意义。

大概两年前我就注意到,中国的基座模型团队其实已经在做一轮非常重要的突破。这个突破的核心,是在算力相对有限、尤其是互联带宽也存在约束的条件下,如何去突破"低端算力"的限制。

在这个过程中,反而催生了一批以效率为导向的结构创新。比如 DeepSeek v2、v3 系列提出的细粒度 MoE 等方法,本质上看起来像是在算力约束下的折中方案,但后来我们发现,它们其实引发了一轮新的范式变化——在固定算力条件下,如何最大化智能能力的输出。

某种程度上,DeepSeek 也给国内所有大模型团队带来了很强的信心和确定性。

虽然今天我们在国产芯片层面,无论是训练还是推理,都已经不像过去那样受到明显制约,但正是当时的限制,反而推动了我们对模型结构做更极致的效率探索。

所以我们现在也能看到一批新的结构方向在出现,比如 hybrid sparse、linear attention,以及一些不同团队的探索:DeepSeek 的 DSA、NSA,Kimi 的 KSA,小米也在推进面向下一代的 high sparse 架构。

这些探索和早期 MiMo 这一代结构是不太一样的,它们更多是在面向 Agent 时代重新思考一个问题:模型结构该如何服务更复杂的任务执行。

为什么结构创新这么关键?因为我们刚才一直在讨论 long context。

如果你真正用过类似 OpenClaw 这样的系统,会很明显感受到一点:用得越多,它反而越"聪明",前提是它能维持足够长的推理上下文。

long context 这个话题其实已经讨论很多年,但现实是,真正能在超长上下文下保持高性能,同时又把推理成本压下来的模型并不多。

问题不在于"能不能做百万甚至千万 token 的 context",而在于"做到了之后,成本是不是还可控、速度是不是还够快"。

只有当 long context 在百万甚至千万级别依然足够便宜、足够快时,才会真正出现高生产力场景,模型才会被持续投入更复杂的任务中。

进一步来说,当 context 规模来到更极端的尺度——比如千万甚至亿级别时,模型才可能开始出现一种新的能力:自我迭代。

所谓自我迭代,就是模型在复杂环境中,通过超长 context 的持续积累与反馈,逐步完成能力演化。这种演化既可能发生在 Agent 框架层面,也可能反过来影响模型本身的结构与参数更新。

从某种意义上说,long context 本身,就已经在扮演一种"参数进化"的角色。

所以,怎么实现long context efficient的架构,以及在推理侧做到long context efficient,是一个全方位的竞争。这是我们大约一年前就开始探索的问题。而如今,怎么在真实的长程任务上实现稳定性和高上限的效果,是我们现在在持续迭代的创新方向。我们在思考如何构造更有效的学习算法,如何采集到真实的、在百万乃至千万上下文里具有长距依赖的文本,以及结合复杂环境产生的trajectory,这是我们正在经历的事情。

但我能看到更长期的事情是,大模型本身在飞速进步,加上agent框架的加持,推理需求已经在过去一段时间内增长了近十倍。那今年整个token的增长会不会达到百倍?这又将我们带入另一个维度的竞争,那就是算力,推理芯片,乃至往下到能源层面。这是我对这个问题的判断,也期待从大家身上学到更多。

黄超:Agent应用的三个关键技术

杨植麟(主持人):非常有insight的分享。下面想问一下黄超,因为你也开发了一些非常有影响力的agent项目,包括nano bot,在社区里也有很多粉丝。想问一下,从agent的harness或者说应用层面,接下来你觉得有哪些技术方向是比较重要、大家需要去关注的?

黄超:感谢。我觉得首先可以从agent的几个关键技术模块来拆解,包括planning、memory和tool use。

从planning来讲,现在面向长链路任务或者非常复杂上下文的场景,比如说五百步甚至更长的任务,很多模型不一定能做好planning,我觉得本质上是模型不具备这方面的隐性知识,尤其是在一些复杂垂直领域。未来可能需要把各类复杂任务的知识固化到模型里,这是一个方向。当然,skill和harness这种机制,在一定程度上也是在缓解planning层面的错误,因为它提供了比较高质量的skill,本质上是在帮助模型去完成一些较难的task。

关于memory,我的感受是它永远存在信息压缩不准确、召回不准的问题。当整个长链路任务和复杂场景展开时,memory会急剧膨胀,这对整个memory架构造成很大压力。目前包括各类agent框架基本上都采用最简单的文件系统、Markdown格式来做memory,通过文件共享来协作。我觉得未来memory应该走向分层设计,并且需要解决通用性的问题,因为coding场景、deep research场景、多媒体场景的数据模态差异很大,如何对这些memory做好检索索引、提升效率,这永远是一个trade off。

另外,现在agent框架让大家创建agent的门槛大幅降低,未来可能不止一个agent,我也看到有些产品推出了Agent Swarm这样的机制,相当于每个人会拥有一群龙虾。一群龙虾相比一个龙虾,上下文的暴增是可以想象的,这对memory带来的压力非常大。如何管理一群龙虾带来的上下文,目前还没有很好的机制,尤其是在复杂coding、科研发现这类场景下,对模型和整个agent架构都是不小的挑战。

关于tool use,当年MCP存在的问题,比如质量没有保障、存在安全隐患,现在在skill里依然存在。目前看似有很多skill,但高质量的skill其实比较少,低质量的skill会严重影响agent完成任务的完成度。另外skill也存在恶意注入的风险。所以我觉得tool use这块可能需要整个社区共同努力,把skill生态发展得更好,甚至探索如何在执行过程中进化出新的skill。以上这些,是我认为当下agent在planning、memory、skill三个维度上存在的痛点,以及未来潜在的方向。

杨植麟(主持人):可以看到刚才两位嘉宾从不同视角讨论了同一个问题,随着任务复杂度增加,上下文会急剧膨胀。从模型层面可以去提升原生的上下文处理能力,从agent harness层面,则是通过planning、memory,包括multi-agent的harness,在模型能力一定的情况下支持更复杂的任务。我觉得这两个方向接下来会有更多的化学反应,共同提升完成复杂任务的能力上限。

未来12个月,AI发展的关键词

生态、可持续Token、自进化、算力

那最后我们来一个开放式展望,请各位用一个词来描述接下来十二个月大模型发展的趋势以及你的期望。这次我们先从黄超开始。

黄超:十二个月在AI领域看起来好遥远,真的不知道十二个月之后会发展成什么样子。

杨植麟(主持人):这里原来写的是五年,我给改成十二个月了。

黄超:对,我这边的关键词应该是生态。未来agent要真正从个人助手转化为打工人,这一步很重要。现在大家玩agent很多时候还停留在新鲜感阶段,觉得好玩,但未来真正要让agent沉淀下来,成为大家真正的搬砖工具,或者说真正的co-worker。这需要整个生态的共同努力,把所有相关的技术探索和模型技术都开源出来,不管是模型迭代、skill平台迭代还是各类工具,都需要面向agent打造更好的生态。

从我自己的感受来说,未来的很多软件可能不再是面向人类的。人类需要GUI,但很多软件可能会是面向agent原生设计的,人类只会去使用让自己快乐的GUI,其他的交给agent。所以现在整个生态从GUI、MCP又转向了CLI这样的模式。我觉得需要整个生态把不管是软件系统、数据还是各种技术,都变成Agent Native的模式,这样才能让整个agent的发展更加丰富。

罗福莉:我觉得把这个问题缩小到一年非常有意义,因为五年这个时间跨度,从我心目中对AGI的定义来看,我觉得已经实现了。所以如果要用一个词来描述接下来一年AGI历程里最关键的事情,我认为会是自进化。这个词虽然听起来有点玄幻,过去一年大家也多次提到,但我最近才对它有了更深的体会,也对如何具体落地这件事有了更务实可行的方案。

借助非常强大的模型,我们在过去chat范式下其实根本没有发挥出预训练模型的上限,而这个上限现在被agent框架激活了。我们现在触到了一个现象,当模型执行更长时间的任务时,它可以自己去学习和进化。一个很简单的尝试是,在现有的agent框架里叠加一个可以verify的条件约束,再设置一个loop,让模型持续迭代优化目标,我们就能发现模型会持续拿出更好的方案。这种自进化现在已经能跑一两天了,国内的模型基本上能支撑,当然和任务难度有关。我们发现在一些科学研究上,比如去探索更好的模型结构,因为有评估标准,比如更低的PPL,在这类目标明确的任务上,模型已经能自主运行和执行两三天了。

从我的角度看,自进化是唯一能创造出新东西的地方,它不是去替代我们人类现有的生产力,而是像顶尖科学家一样去探索这个世界上还没有的东西。一年前我会觉得这个时间历程需要三到五年,但就在最近,我觉得这个时间线应该缩短到一两年,大模型叠加一个非常强的自进化agent框架,至少能实现对科学研究的指数级加速。我们组内做大模型研究的同学,workflow高度不确定且需要大量创造力,但借助顶尖模型,基本上已经能把我们自己的研究效率加速近十倍了。我很期待这样的范式辐射到更广泛的学科和领域。

夏立雪:我的关键词叫可持续token。我看到整个AI的发展仍然处于长期持续的过程中,我们也希望它能有长久的生命力。从基础设施的视角来看,我们面临的一个很大问题是资源终究是有限的,就像当年我们讲可持续发展一样。我们作为一个token工厂,能否给大家提供持续稳定、大规模可用的token,让顶尖的模型真正能够继续服务更多的下游,是我们看到的一个非常重要的问题。

所以我们现在需要把视角放宽到整个生态,从最早的能源到算力,再到token,最终转换成GDP,让这条链路能够进行持续的经济化迭代。我们不只是把国内的算力用起来,也在把这些能力输出到海外,让全球的资源能够打通整合。所以我认为可持续这个词,也包含了我们想把中国特色的token经济学做起来的愿望。过去那个时代叫Made in China,我们把低价的制造能力转化成好的商品输出到全球。现在我们想做的有点像AI Made in China,把中国在能源上的优势,通过token工厂可持续地转化为优质的token输出到全球,成为世界的token工厂。这是我希望在今年看到的,中国为世界人工智能带来的价值。

张鹏:我就简短一点,大家都在仰望星空,我就落地一点。未来十二个月面临的最大问题,我觉得可能就是算力。刚才也说了,所有的技术,包括智能体框架,让很多人创造力爆发、效率提升十倍,但前提条件是大家用得起、用得起来。不能因为算力不够,一个问题提出去让它思考半天都得不到答案,这肯定不行。也正是因为这样的原因,我们很多研究进展和想要做的事情其实都受阻了。前两年记得中关村论坛有人提过这么一句话,叫没卡没感情,谈卡伤感情。今天又回到了这个处境,但情况又不一样了,我们现在转向推理阶段,是因为需求真的在爆发,十倍百倍地爆发。刚才也说到过去增长了十倍,背后其实是一百倍的需求,还有大量的需求没有被满足,这需要大家一起来想办法。

杨植麟(主持人):好,感谢各位的精彩分享,谢谢大家。

——好文推荐——

图灵奖得主LeCun团队悄然引动世界模型革新!世界模型终于不崩了!48倍加速!15M参数单GPU端到端训练!自发涌现物理理解!

OpenClaw创始人:Vibe Coding已经是贬义词了!Meta软件工程师爆料:硅谷Agentic Engineering五大支柱!要给Agent写代码,而不是写给人!

Transformer祖制,被Kimi捅破了!谷歌大V高赞:Kimi触碰了十年没人敢碰的禁区!性能炸裂,相当于免费得1.25倍算力,网友:简直天才洞察

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容