关于ZAKER Skills 合作
钛媒体 29分钟前

AI 没书可读之后,两个 AI 教父赌上了相反未来

文 | wiwi

一家公司尚未发布公开产品 , 估值却已经达到 320 亿美元。

创始人是伊利亚 · 苏茨克维 ( Ilya Sutskever ) —— OpenAI 联合创始人、前首席科学家 , 也是过去十年大模型浪潮中最关键的技术人物之一。他创办的公司叫 Safe Superintelligence, 字面意思是 " 安全的超级智能 ", 简称 SSI。他放话说 ," 在做出真正安全的超级智能之前 , 我们什么都不会发布。"2025 年 ,SSI 被曝完成 20 亿美元融资 , 估值达到 320 亿美元——投资人显然真的愿意等。支撑这场等待的 , 是他的一个判断 : 数据是有限的 , 互联网只有一个 , 预训练这条老路已经走到头了—— 2020 到 2025 年靠堆算力吃饭的 " 规模化时代 " 结束了 ,2026 年开始 , 得靠算法创新另开一条路。

几乎同一时间 , 另一个人在干一件相反的事 : 离开自己在 Meta 积累了 12 年的研究位置 , 顶着深度学习三大教父之一的名头出去融资 , 拿到 10.3 亿美元——投前估值 35 亿美元 , 被称为欧洲最大规模种子轮之一。他是杨立昆 ( Yann LeCun ) 。他不是说大语言模型没有用 , 而是认为它们不足以通向人类级智能 , 顶多算个 " 信息检索系统 "。他押的答案是 " 世界模型 " —— AI 不靠读文字 , 靠看视频、靠和真实世界互动来学习。在他离开前后 ,Meta 的 V-JEPA 2 已经拿出过这条路线的早期证据 : 模型先从大规模视频中学习世界表征 , 再用约 62 小时机器人数据进行后训练 , 随后在真实机械臂上完成了零样本的抓取与放置任务。

一个不肯发产品 , 一个认定现在这条技术路线走不到终点。两人都曾站在同一阵营里最显眼的位置 , 现在却在 "AI 没书可读之后 , 下一步该怎么学 " 这个问题上 , 真金白银地下了完全相反的注——这不是两个科学家的口水战 , 而是后语料时代最核心的路线分歧。

分歧的起点 , 是同一个事实。过去几年 , 大模型像一个疯狂读书的学生 , 把互联网上能找到的文章、论文、代码、帖子、问答、网页几乎都读了一遍。读得越多 , 它越会写、越会答、越会编程 , 也越像一个什么都懂的 " 全能助手 "。但 Epoch AI 的一份研究估算 , 公开可用的高质量人类文本语料 , 大概率会在 2026 到 2032 年之间被现有训练方法 " 用完 " ——继续靠读更多网页变强这条路 , 正在肉眼可见地走到尽头。

更麻烦的是 , 现在网上越来越多内容本身就是 AI 写的。新闻评论、产品文案、社交媒体帖子、营销文章、代码片段、问答内容 , 都可能来自 AI。于是 , 一个担心开始流行 :AI 会不会只能吃自己吐出来的东西 , 越学越差 , 最后把自己 " 喂坏 "?

这个担心不是没道理。2024 年发表在《自然》上的一项研究 ( Shumailov 等人 ,《AI models collapse when trained on recursively generated data》 ) 把这种现象称为 " 模型崩溃 ": 如果模型不断学习低质量的 AI 生成内容 , 错误、偏见和失真就可能被一轮轮放大 , 最后输出越来越平庸 , 越来越不像真实世界。没有反馈的自我学习 , 是回声室 ; 有反馈的自我学习 , 才是训练场。

听起来 , 这像是大模型的宿命 : 先学完人类 , 再开始啃自己 , 最后走向退化。但过去两年的现实并没有这么简单—— OpenAI 的 o1、o3, 以及 DeepSeek-R1, 这批会 " 思考 " 的推理模型正在变强。按公开的技术报告 , 它们走的都是强化学习、可验证任务这条路线 , 某种程度上确实是在用 "AI 自己生成、又被验证过 " 的数据训练自己。同样是 "AI 学 AI", 为什么一种可能把模型喂坏 , 另一种却能让模型变强 ?

差别不在于内容是不是 AI 生成的 , 而在于有没有办法判断它到底对不对、有没有用。Sutskever 和 LeCun 看似押了两个相反答案 , 其实都在寻找同一样东西 : 一个能让 AI 从试错中继续进化的 " 裁判 "。

AI 没有学完人类知识 , 只是快读完了容易抓取的那部分

"AI 学完互联网 " 这个说法很有冲击力 , 但并不准确。AI 学到的 , 主要是人类已经写下来、能被抓取和训练的那部分内容。文章、论文、代码、网页 , 都是人类知识的影子 , 不是知识本身。很多真正重要的经验 , 从来没有被完整写下来 : 医生怎么从病人状态里发现异常 , 工程师怎么判断系统会不会出事故 , 创业者怎么判断产品方向是不是跑偏 , 这些很难变成一篇文章 , 也很难直接喂给模型。

所以 , 高质量语料变少 , 真正说明的不是 "AI 没东西可学了 ", 而是只靠读网页、读文章来提升能力 , 已经越来越不够了。AI 下一步要学的 , 不只是知识 , 而是经验。

推理模型 :Sutskever 路线 , 靠确定性裁判

要理解 Sutskever 这条路线怎么运作 , 可以先看一个更简单的例子 : 下棋。

AlphaZero 当年震惊行业的地方 , 不是棋力强 , 而是它变强的方式。它不靠背人类棋谱 , 而是先知道游戏规则 , 然后自己和自己下棋 , 下赢了强化这条路 , 下输了调整策略。这里最关键的不是 " 没有人类数据 ", 而是棋盘会告诉它输赢——它有一个不会撒谎的裁判。没有裁判 , 系统只是乱试 ; 有了裁判 , 乱试才会变成经验。没有验证的 AI 数据 , 是污染 ; 被验证过的 AI 经验 , 才是燃料。

推理模型沿用的就是这套逻辑。过去的大模型更像一个读了很多书的人 , 你问它问题 , 它根据读过的内容生成一个看起来合理的答案——很会说 , 但不一定真能把问题一步步做对。推理模型则更像一个会做题的人 : 面对数学题、代码题、逻辑题 , 它可以尝试多条路径 , 生成不同解法 , 再根据结果筛选 , 业内把这种训练方式叫作 " 可验证奖励强化学习 " ( RLVR ) ——算对的留下 , 算错的丢掉 ; 代码能跑通的留下 , 跑不通的淘汰。

这些任务 , 清一色活在确定性裁判的地盘里 : 代码能不能编译通过 , 数学定理证不证得出来。这种裁判的反馈客观、瞬时、几乎零成本 , 模型几毫秒内就能拿到一个非黑即白的对错信号 , 可以在机器里疯狂自我对弈几百万次。这是 Sutskever 这条路线现在能跑通的地基 , 也是他那句 " 预训练时代终结 " 的下半句——他没说 AI 会停止变强 , 只是说变强的方式要换了。数据见底 , 不等于进步见底。

当然 , 这不意味着模型真的像人一样理解世界。换句话说 , 它是在一些可以判断对错的任务里 , 找到了一种更有效的进步方法 , 数学、代码、规则清晰的任务 , 是最先受益的地方——至于那些没有标准答案的问题 , 推理模型暂时还碰不到。

所以 , 推理模型不是万能钥匙。它最先改变的 , 是那些可以被清楚验证的领域——擅长解决一切能被编译成代码或形式逻辑的问题 , 天花板是 " 所有能用规则穷举验证的智能 "。这条路更接近一门几何学 , 公理摆在那里 , 对错有标准。

世界模型 :LeCun 路线 , 把真实世界变成裁判

LeCun 押注的是另一件事 : 很多真正重要的智能 , 规则写不出来 , 只存在于物理世界和人类共识里 , 这条路更接近一门物理学——规律要从现实里一点点观测出来。

互联网文本是有限的 , 但世界本身不是。从自动驾驶的道路数据 , 到机器人在工厂、仓库、家庭里的交互数据 , 再到实验室自动化、工业设备运行产生的传感器数据 , 以及仿真系统不断模拟生成的训练经验——这些都不是传统意义上的 " 网页内容 ", 但同样可以成为 AI 学习的来源。这也是世界模型、具身智能这些方向受到关注的原因 : 让 AI 不再只学习人类写下来的东西 , 而是从和环境的互动中获得新经验。

他押的 " 世界模型 ", 本质是把物理定律本身变成一种硬裁判 : 预测一个球往哪儿滚 , 违反物理规律会被现实当场打脸 , 这一点和确定性裁判一样干脆。但再往上一层——审美、常识、价值判断——物理定律管不到 , 这些问题活在模糊性裁判的地盘里 : 反馈主观、滞后、有成本 , 还充满噪声 , 同一件事十个人能给出十种判断。最终还是要靠人来当裁判。

这条路还很早。比如人形机器人 ,Figure、特斯拉 Optimus 这类项目目前最大的瓶颈之一 , 就是真实世界的交互数据采集成本极高——一台机器人跑一天积累的有效数据 , 可能远不如一段代码跑一次测试来得便宜、来得干净。世界模型距离真正理解物理世界 , 也还有很长距离。

但方向已经很清楚 :AI 下一步要学的 , 不只是互联网上的文字 , 而是现实世界里的因果、行动和反馈。

真正的分水岭 : 谁拥有反馈 , 谁拥有裁判

Sutskever 和 LeCun 的赌注方向相反 , 但背后指向同一个判断 : 谁能拥有更好的裁判 , 谁就能让 AI 继续进化。过去 ,AI 公司最想要的是更多数据 , 谁拿到更多高质量文本 , 谁就可能训练出更强的模型 ; 但现在 , 问题变了——互联网上的文本越来越多 , 也越来越杂 , 真正稀缺的不只是数据本身 , 而是判断数据有没有用的能力 , 也就是裁判 , 不管它是确定性的标准答案、测试用例 , 还是模糊性的用户反馈、任务结果。

这会改变 AI 竞争的重点。过去 , 模型公司拼的是算力、算法和训练数据 ; 未来 , 这些仍然重要 , 但还不够——谁能拿到更多真实任务反馈 , 谁就更可能让模型继续进化。

这也是为什么 Agent ( 智能体 ) 会变得重要。普通聊天机器人回答的是问题 ,Agent 要完成的是任务。回答一个问题 , 可以主要靠读过的内容 ; 完成一个任务 , 则必须进入真实环境。比如 , 一个 Agent 帮用户订票 , 不是只写一段建议 , 而是要查航班、比较价格、完成预订 ; 一个 Agent 帮程序员写代码 , 要运行测试、修复报错、提交结果。在这个过程中 ,AI 会留下完整的任务轨迹 : 用户想做什么 , 模型怎么拆解 , 哪里出错 , 怎么修正 , 最后有没有完成——这种数据比普通网页更有价值 , 因为它不只是记录 " 人类说过什么 ", 而是记录 " 一个任务是怎么被完成的 "。

未来 AI 竞争 , 很可能不再只是看谁拥有最多网页 , 而是看谁拥有最多真实任务闭环。任务在哪里发生 , 反馈就在哪里产生 ; 反馈在哪里积累 ,AI 就在哪里继续变强。

应用公司的机会 : 场景反馈才是护城河

对大多数 AI 创业者来说 , 这场 " 要裁判 " 的变化 , 反而让机会变得更清晰。

通用大模型训练已经不是普通创业公司能参与的游戏。算力、人才、数据和资金门槛都太高 , 创业者很难再靠自己训练一个通用大模型 , 去和 OpenAI、Google、Anthropic、DeepSeek 这些公司正面竞争。

但这不代表 AI 应用没有机会。恰恰相反 , 机会正在从 " 谁有大模型 " 转向 " 谁更懂具体场景 "。因为大模型公司拥有通用能力 , 但不一定拥有每个行业里的真实反馈——它们知道法律合同大概怎么写 , 却不一定知道哪些条款真的会被律师改掉 ; 知道教育题目怎么讲 , 却不一定知道学生为什么总在同一个地方犯错。

这就是 AI 应用公司的机会。一个 AI 产品真正值钱的地方 , 不是界面做得多漂亮 , 而是它能不能知道用户最后有没有真的解决问题。如果一个 AI 法律工具只是生成合同 , 很容易被替代 ; 但如果它能持续记录律师修改了哪些条款、哪些表达减少了争议 , 它就开始拥有自己的行业反馈。如果一个 AI 教育工具只是讲题 , 也很容易被大模型覆盖 ; 但如果它能知道学生每一次错在哪里、什么练习能真正提高掌握率 , 它就有了自己的数据闭环。

这些东西 , 才是未来 AI 应用公司的护城河。模型能力会越来越便宜 , 今天看起来很惊艳的功能 , 明天可能就变成基础设施。这也是为什么 " 套壳应用 " 越来越危险——如果一个产品只是把通用模型包了一层界面 , 它的价值会随着模型升级被不断压缩。

AI 应用的价值 , 会从 " 生成内容 " 转向 " 完成结果 "。谁能定义结果 , 谁才可能拿回定价权。

不是所有问题 , 都有标准答案

不过 , 裁判也不是请到就能用。

数学题有答案 , 代码能不能运行也能测试 , 围棋有输赢 , 广告投放有转化数据。这些都是确定性裁判说了算的领域 , 所以 AI 可以更快通过试错变强。

但很多真实问题 , 从头到尾都活在模糊性裁判的地盘里 : 一篇文章写得好不好 , 一个产品方向值不值得做 , 一个商业判断是否正确。这些问题没有唯一答案 , 也没有一个系统能立刻告诉你 " 对 " 或 " 错 "。用户点击了 , 不代表内容真的有价值 ; 转化率提高了 , 不代表策略长期健康——模糊性裁判给出的反馈 , 本身就可能是错的、滞后的、被操纵的。

所以 ,AI 的自我进化不会均匀发生 : 确定性裁判说了算的地方跑得快 , 模糊性裁判说了算的地方——审美、价值判断、商业决策、人际沟通——还是离不开人的判断。这也是为什么人类不会在这个过程中变得不重要。恰恰相反 , 越是进入真实任务时代 , 人类作为最终极的模糊性裁判 , 标准、判断和价值观就越重要。

AI 可以更快地探索可能性 , 但它未必知道哪一种可能性值得追求。

结语 :Sutskever 和 LeCun, 可能都没说错

回到开头那场争论。Sutskever 说数据见底、预训练要终结 ,LeCun 认为大语言模型不足以通向人类级智能——两个人吵的 , 根子上是在赌两种不同的裁判。

Sutskever 赌的是确定性裁判能覆盖的范围有多大 : 只要一个问题能被编译成代码、写成形式逻辑、化简成规则 ,AI 就能在自我对弈里疯狂进化。SSI 不发产品也敢拿 320 亿估值 , 赌的就是这套方法论的天花板足够高。o1、o3、DeepSeek-R1 至少证明了一件事 : 在数学、代码这类可验证任务上 , 模型确实可以通过强化学习和自我试错继续提升。LeCun 赌的是另一件事 : 很多真正重要的智能 , 规则写不出来 , 只存在于物理世界和人类共识里 , 世界模型只是第一步 ,AMI Labs 10.3 亿美元种子轮买的是这张更长期的船票。

一个解决的是 " 近两三年 , 数据不够用了怎么办 "; 一个解决的是 " 读完文字之后 , 智能的天花板到底在哪 "。两条路不是对立的选项 , 更像是同一条进化路径上的两段接力 : 确定性裁判先把能穷举的智能吃干净 , 剩下的硬骨头 , 迟早要交给模糊性裁判 , 或者干脆把物理世界本身变成裁判。

硅谷的钱已经替这场争论投了票 : 一边愿意为 " 近期答案 " 付 320 亿美元 , 一边愿意为 " 终局答案 " 付 10 亿美元的起步价。两头下注 , 恰恰说明这两条路谁也没法单独取代谁。

说到底 ,AI 学完互联网之后 , 下一步靠什么进化 ? 答案不是继续无限读网页 , 也不是吃自己的内容然后慢慢崩溃。更准确地说 ,AI 正在从一种学习方式走向另一种学习方式 : 过去靠阅读人类留下来的内容变强 ; 接下来 , 会更多靠做题、写代码、完成任务、进入环境、接受反馈来变强。

这就是后语料时代的真正变化。模型公司要争夺更好的反馈 , 平台公司要争夺任务入口 , 应用公司要争夺真实场景 , 创业者要把用户结果变成可以积累的数据闭环。

人类知识被 " 学完 " 不是故事的结束。它只是意味着 ,AI 终于走到了靠模仿无法轻松继续变强的地方。下一步 , 它要学的是更难的东西 : 如何行动 , 如何试错 , 如何接受反馈 , 如何在真实任务里形成经验。

至于它能走多远 , 要看我们能为多少领域 , 造出那个能判断对错、衡量结果、连接现实的 " 裁判 "。

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容