关于ZAKER 合作
虎嗅APP 10小时前

AI 四小强重新上桌了?

本文来自微信公众号:字母榜,作者:马舒叶,题图来自:AI 生成

当 7 月 16 日身着唐装的黄仁勋在公开演讲中,将 MiniMax 与 "DeepSeek、阿里巴巴、百度 " 一同提及,并称 " 开发的产品都是世界级 " 时,沉寂半年之久的 AI 四小强,颇似甄嬛回宫,手里拿上了逆袭剧本。

实际上,进入 7 月,扎堆推出 Deep Research 的 AI 四小强,正跃跃欲试重新登上牌桌。

近期,阶跃星辰的阶跃 AI Deep Research 正式开启邀请测试,此前 6 月,MiniMax 连续 5 天上新了推理模型 M1、视频生成模型、Agent 等,其中 MiniMax-M1 集成了包括 Deep Research(深度研究)在内的技能,同在 6 月,月之暗面的 Kimi Research 跟上。而早在 3 月底,智谱发布了 AutoGLM 沉思版,作为智能体 ( AI Agent ) 也融合了 Deep Research 能力。

截止发稿前,AI 四小强已全抢上这一波 Deep Research 的船票,并在 7 月争先恐后在模型层上新,前半年低调发育的 AI 四小强,在大厂夹击下正迅速追上。

" 现在大模型进入了深水区,单靠模型参数或者 Demo 已经没办法说服市场了," 某头部创投机构联创林晟(化名)告诉字母榜,对商业化压力越来越大的 AI 四小强而言,在垂直领域做深,做更能交付价值的 Deep Research 以及 Agent,都是在大厂围剿中较为安全的生态位。

AI 四小强也 " 需要通过跟上 Deep Research 这样关键的技术迭代向投资人证明,他能在大模型下半场占有一席之地。" 林晟补充道。

同时,对 AI 四小强来说,跟进 Deep Research,押注可以自主规划任务并交付结果的 AI Agent,不仅是为重上牌桌,也是要搏一个 " 钱景 "。

据外媒报道,为了使用 OpenAI 面向 ChatGPT Pro 用户推出的 Agent "Deep Resaerch",约 20% 的用户升级成了每月订阅费高达 200 美元的 Pro 会员。同时,恒业资本管理合伙人江一告诉字母榜,随着 DeepSeek 的爆火,他们慧辰股份推出的消费 Agent,原本在 AI 方面没有投入预算的客户,已经将原本信息化的预算挪向 AI,而这些应用 Agent 的订单往往都在数百万级别。

这一次,AI 四小强能重新上桌吗?

在 2025 年的 AI Agent 热潮里,Deep Resaerch(深度研究)类的产品是最早落地的一批。

从去年底谷歌发布首个 Deep Resaerch 开始,数月内,OpenAI、Anthropic 等迅速跟进,能做 PPT、写财报分析、进行学术研究的 Deep Resaerch 成了新的技术标杆,也让 AI Agent 在用 AI 辅助人的道路上向前迈了一步。

如今 AI 四小强都推出了自家的 Deep Research,正面硬刚字节、腾讯等大厂。

不过需要注意的是,Agent 作为四小强关键的技术展示窗口,杨植麟们的表现颇为谨慎。都以内测版开路,通过一个月的小范围内测,去收集专业用户的反馈意见,在调试后才全量上线。

这种谨慎开大的做法也显露出 AI 四小强对这次亮相的重视。

此外,在 Deep Resaerch 的路径选择上,AI 四小强也分裂出了两种路径。

一条路径崇尚傻瓜式操作,门槛更低,以月之暗面的 Kimi-Researcher 为代表,摸着 OpenAI、Gemini 过河。正如 OpenAI demo 所演示的一般,用户只需发出指令,合上电脑等待,就能得到一份达到研究分析师水准的报告。和月之暗面选择同样路径的,还有字节。

这种路径选择让 AI 自主思考和理解,推理和调用工具来解决问题,极大降低了用户的使用门槛。" 用户不需要准备复杂的提示词,只需要等待,甚至为了没有耐心的大部分用户,OpenAI 官方宣称任务交付时长在 1~30 分钟,测试下来 Kimi-Researcher 一般都会在 10~20 内生成结果。" 在某国企 AI 相关部门就职的宋城(化名)告诉字母榜。

另一种则是高用户互动型,结果很可控,包括智谱、Minimax,选择了类 Manus 的工作流(Workflow)模式。

此外,Kimi 还会提供一份可视化的报告,提供卡片、表格、思维导图等多种信息,目前 ChatGPT 尚未提供类似的功能。

在这种模式下,用户需要准备复杂的提示词,提示词的复杂程度决定了生成效果,而且在 Agent 工作过程中,随着持续调用工具,用户需要加入提供反馈,宋城表示,这种模式 AI 的动作轨迹都一早设计好,可控性更高,只是用户被绑在了任务上," 如果一个任务需要跑 1~2 个小时,为了及时给 AI 做确认、纠偏,需要时刻注意页面。"

但最终两种路线的分歧,实际上都指向了一个核心问题,即无论走哪一条路,当下大模型的能力还不足以支持更智能的 Agent 的推出。对用户来说,每次任务执行都有开盲盒的错觉,因此 AI 四小强也在补足自身的模型能力。

无论是 Mini Max 推出的 M1 新模型,上下文的长度达到一兆,还是月之暗面的 K2 模型,总参数量达到一万亿,就在 7 月 25 日,阶跃星辰场发布了 Step 3 大模型。针对国产卡 32K 上下文,这代模型推理效率最高可达到 deepseek R1 的 300%。

事实上,从 AI 六小龙到 AI 四小强,杨植麟们的 2025 年过得颇为艰难。

随着年初 Deepseek 带起推理模型的新潮流,原本佛系观战的腾讯携元宝强势下场,阿里也用夸克浏览器争夺新流量入口,字节的豆包短暂从下载榜滑落,但凭借频繁的迭代上新持续探入垂直场景。

" 在年初我们(Kimi)停止投流之后, 国内不少应用商店搜索 kimi 甚至第一页都看不见, 在苹果 App Store 搜 kimi 会推荐豆包, 在某度搜 kimi 会推荐某度 DeepSeek-R1 满血版。"

Kimi 发布 K2 大模型后,Kimi 的技术员公开表示,即便面对如此艰难的情况,Kimi 也没有恢复投流。

去年在大模型赛道上激进砸钱推流的 AI 六小龙,一时之间陷入了对自身技术实力的自证漩涡。这似乎也让杨植麟们意识到,技术实力似乎远比用户规模,更能决定大模型创企的发展。

半年内,AI 四小强悄悄调整重心,在生存压力下,放弃对用户规模的追逐成了第一步。

从去年 12 月至今,一批负责应用和商业化的六小龙高管相继离开。其中包括但不限于前智谱 COO 张帆、前 MiniMax 商业化负责人魏伟、前月之暗面核心产品负责人明超平、前阶跃星辰 " 冒泡鸭 " 产品负责人张心皓(尚未离职,转为内部顾问)等等。月之暗面也传出了调整投放策略的消息。

从 Deepseek 的推理模型,海外科技大厂如 Claude、XAI 等在 Deep Resaerch 上的新突破,到 Manus 的 Agent 热,大模型的竞争热词短短数月换了几轮。被 DeepSeek 冲击估值体系的 AI 四小强,不得不重新将技术迭代确立为公司的最高优先级。

而在这场 AI 时代的 " 注意力资源 " 比拼之战中,重新跟上节奏的 AI 四小强,需要向外界证明自己有重上牌桌的实力和可能性。Agent 成了最好的发力点。

" 过去国内大模型都在对标 OpenAI、复制 OpenAI,现在在 Agent 这样的应用层,要打差异化了。" 江一告诉字母榜,AI 头部创企正试图在垂直技术的长板上去做突破,避免与大厂的同质化竞争。

Kim7 月推出万亿参数的 K2 模型,为智能体任务(agentic tasks)做了专门优化,被 Hugging Face、Perplexity CEO 发文称赞。多模态则是 MiniMax 的舒适区,近期发布的视频模型 Hailuo 02 在 Artificial Analysis Video Arena 评测榜上排名第二,仅次于字节的 Seedance 1.0。

可以看到,跑在前面的已经拿到了来自资本市场的好消息。

智谱频频传出融资消息,又成为首个正式开启上市辅导备案的 AI 大模型创企,MiniMax 爆出即将完成近 3 亿美元(约合人民币 22 亿元)新融资,并向港交所提交 IPO 申请,目标 " 今年内上市 ",估值从 25 亿美元冲到 40 亿~50 亿美元之间。

押注 Agent,AI 四小强已经跟上来了。

不过,在 Agent 时代,跟上节奏的 AI 四小强还需再次证明自己的价值。

技术卡位战是杨植麟们首先要自证的第一道坎。尽管月之暗面 6 月发布的 Kimi-Researcher ,声称在 " 人类最后一场考试 " ( Humanity's Last Exam ) 中,取得了 26.9% 的 Pass@1 成绩,创下最新的 SOTA 水平。但可以看到,相比起引发热议的 Manus、Lovert,前者拿到硅谷知名风投 Benchmark 领投的 7500 万美元融资,亮相 3 个月完成文生图、视频生成功能的迅速迭代;后者顶着全球首个设计 Agent 的名头得到了马斯克的激情点赞。

更为出圈的 Manus、Lovert,调用的都并非国内的大模型。对杨植麟们而言,拿出自研 Agent 只是第一步。他们需要用更出圈的应用案例,证明自身技术的优越性。

"Agent 需要给客户创造愿意付费并且可量化的价值。"

江一告诉字母榜,在 Agent 创企们拿着锤子找钉子的过程中,出圈的应用案例要给客户提供真金白银的可量化价值,而这往往并非用 ChatBot 这类基础功能可以达到的。他们为一位大客户交付了 Agent 矩阵,涉及到从门店销售、找高潜门店售点铺货,到定市场策略、协同物流等多个流程。

其中,客户有 20 万地推销售,工资高,流动性更达到 60%~70%,培训成本占到了营收的 12%。通过培训销售使用 Agent,客户将原本销售 30 天的入职培训时间缩短到了两天,新人用 agent 也能达到中等偏上的销售水平。

对 AI 四小强来说,找到目标客户后如何创造远大于售卖价格的交付价值,用出圈的应用案例证明自己,是必然要闯的第一关。

但在 Agent 大爆发的 2025 年,杨植麟们也缺 " 钱多、有耐心 " 的好客户。

尽管算力价格被大厂联手打进 " 厘时代 ",但不同于单纯对话的有限的算力消耗,需调用多个大模型、访问多个网址的 Agent,每个任务的 Token 消耗量都不低。" 生成一份还可用的调研报告,要 22 万 token,用 cursor(智能编程)一个来回就消耗 300 万 token",在某国企就职的宋城告诉字母榜,对企业来说,使用 Agent 的成本并不算低。

同时,技术的迅速迭代也让 Agent 的使用成本节节攀高。"Manus 发布前核算完成单次任务的成本在 2~3 美元,几轮优化后原本成本已经降低,但迭代添加视频生成能力等等,成本又再次拉了上去," 前 Manus 员工方成(化名)告诉字母榜。

而使用成本的高昂、单次任务执行动辄要半小时、甚至一小时完成任务,就连 OpenAI 也在 " 祈求 " 用户的耐心。

在 OpenAI 面向 ChatGPT Pro 用户推出的 Agent "Deep Resaerch" 后,其团队核心成员 Issa Fulford 接受采访时就表示 "(OpenAI Deep Resaerch)的目标用户是专业消费者(prosumer),那些愿意为了一个详细报告等待 30 分钟的人。"

根据 SimilarWeb 的监测数据显示,2025 年以来,Manus 的月访问量从 3 月的 2376 万次,跌到了 6 月的 1730 万次;Genspark 的月访问量从 4 月的 888 万次,下降到了 6 月的 769 次。头部 Agent 的增长颓势也告诉我们,Agent 距离跑通 PMF(产品市场匹配度)还有一段路要走。

无论如何,可以肯定的是,AI 四小强,必须开始赚钱了。

本文来自微信公众号:字母榜,作者:马舒叶

相关标签
ai

最新评论

没有更多评论了