AI 没书可读之后，两个 AI 教父赌上了相反未来

文 | wiwi

一家公司尚未发布公开产品 , 估值却已经达到 320 亿美元。

创始人是伊利亚 · 苏茨克维 ( Ilya Sutskever ) —— OpenAI 联合创始人、前首席科学家 , 也是过去十年大模型浪潮中最关键的技术人物之一。他创办的公司叫 Safe Superintelligence, 字面意思是 " 安全的超级智能 ", 简称 SSI。他放话说 ," 在做出真正安全的超级智能之前 , 我们什么都不会发布。"2025 年 ,SSI 被曝完成 20 亿美元融资 , 估值达到 320 亿美元——投资人显然真的愿意等。支撑这场等待的 , 是他的一个判断 : 数据是有限的 , 互联网只有一个 , 预训练这条老路已经走到头了—— 2020 到 2025 年靠堆算力吃饭的 " 规模化时代 " 结束了 ,2026 年开始 , 得靠算法创新另开一条路。

几乎同一时间 , 另一个人在干一件相反的事 : 离开自己在 Meta 积累了 12 年的研究位置 , 顶着深度学习三大教父之一的名头出去融资 , 拿到 10.3 亿美元——投前估值 35 亿美元 , 被称为欧洲最大规模种子轮之一。他是杨立昆 ( Yann LeCun ) 。他不是说大语言模型没有用 , 而是认为它们不足以通向人类级智能 , 顶多算个 " 信息检索系统 "。他押的答案是 " 世界模型 " —— AI 不靠读文字 , 靠看视频、靠和真实世界互动来学习。在他离开前后 ,Meta 的 V-JEPA 2 已经拿出过这条路线的早期证据 : 模型先从大规模视频中学习世界表征 , 再用约 62 小时机器人数据进行后训练 , 随后在真实机械臂上完成了零样本的抓取与放置任务。

一个不肯发产品 , 一个认定现在这条技术路线走不到终点。两人都曾站在同一阵营里最显眼的位置 , 现在却在 "AI 没书可读之后 , 下一步该怎么学 " 这个问题上 , 真金白银地下了完全相反的注——这不是两个科学家的口水战 , 而是后语料时代最核心的路线分歧。

分歧的起点 , 是同一个事实。过去几年 , 大模型像一个疯狂读书的学生 , 把互联网上能找到的文章、论文、代码、帖子、问答、网页几乎都读了一遍。读得越多 , 它越会写、越会答、越会编程 , 也越像一个什么都懂的 " 全能助手 "。但 Epoch AI 的一份研究估算 , 公开可用的高质量人类文本语料 , 大概率会在 2026 到 2032 年之间被现有训练方法 " 用完 " ——继续靠读更多网页变强这条路 , 正在肉眼可见地走到尽头。

更麻烦的是 , 现在网上越来越多内容本身就是 AI 写的。新闻评论、产品文案、社交媒体帖子、营销文章、代码片段、问答内容 , 都可能来自 AI。于是 , 一个担心开始流行 :AI 会不会只能吃自己吐出来的东西 , 越学越差 , 最后把自己 " 喂坏 "?

这个担心不是没道理。2024 年发表在《自然》上的一项研究 ( Shumailov 等人 ,《AI models collapse when trained on recursively generated data》 ) 把这种现象称为 " 模型崩溃 ": 如果模型不断学习低质量的 AI 生成内容 , 错误、偏见和失真就可能被一轮轮放大 , 最后输出越来越平庸 , 越来越不像真实世界。没有反馈的自我学习 , 是回声室 ; 有反馈的自我学习 , 才是训练场。

听起来 , 这像是大模型的宿命 : 先学完人类 , 再开始啃自己 , 最后走向退化。但过去两年的现实并没有这么简单—— OpenAI 的 o1、o3, 以及 DeepSeek-R1, 这批会 " 思考 " 的推理模型正在变强。按公开的技术报告 , 它们走的都是强化学习、可验证任务这条路线 , 某种程度上确实是在用 "AI 自己生成、又被验证过 " 的数据训练自己。同样是 "AI 学 AI", 为什么一种可能把模型喂坏 , 另一种却能让模型变强 ?

差别不在于内容是不是 AI 生成的 , 而在于有没有办法判断它到底对不对、有没有用。Sutskever 和 LeCun 看似押了两个相反答案 , 其实都在寻找同一样东西 : 一个能让 AI 从试错中继续进化的 " 裁判 "。

AI 没有学完人类知识 , 只是快读完了容易抓取的那部分

"AI 学完互联网 " 这个说法很有冲击力 , 但并不准确。AI 学到的 , 主要是人类已经写下来、能被抓取和训练的那部分内容。文章、论文、代码、网页 , 都是人类知识的影子 , 不是知识本身。很多真正重要的经验 , 从来没有被完整写下来 : 医生怎么从病人状态里发现异常 , 工程师怎么判断系统会不会出事故 , 创业者怎么判断产品方向是不是跑偏 , 这些很难变成一篇文章 , 也很难直接喂给模型。

所以 , 高质量语料变少 , 真正说明的不是 "AI 没东西可学了 ", 而是只靠读网页、读文章来提升能力 , 已经越来越不够了。AI 下一步要学的 , 不只是知识 , 而是经验。

推理模型 :Sutskever 路线 , 靠确定性裁判

要理解 Sutskever 这条路线怎么运作 , 可以先看一个更简单的例子 : 下棋。

AlphaZero 当年震惊行业的地方 , 不是棋力强 , 而是它变强的方式。它不靠背人类棋谱 , 而是先知道游戏规则 , 然后自己和自己下棋 , 下赢了强化这条路 , 下输了调整策略。这里最关键的不是 " 没有人类数据 ", 而是棋盘会告诉它输赢——它有一个不会撒谎的裁判。没有裁判 , 系统只是乱试 ; 有了裁判 , 乱试才会变成经验。没有验证的 AI 数据 , 是污染 ; 被验证过的 AI 经验 , 才是燃料。

推理模型沿用的就是这套逻辑。过去的大模型更像一个读了很多书的人 , 你问它问题 , 它根据读过的内容生成一个看起来合理的答案——很会说 , 但不一定真能把问题一步步做对。推理模型则更像一个会做题的人 : 面对数学题、代码题、逻辑题 , 它可以尝试多条路径 , 生成不同解法 , 再根据结果筛选 , 业内把这种训练方式叫作 " 可验证奖励强化学习 " ( RLVR ) ——算对的留下 , 算错的丢掉 ; 代码能跑通的留下 , 跑不通的淘汰。

这些任务 , 清一色活在确定性裁判的地盘里 : 代码能不能编译通过 , 数学定理证不证得出来。这种裁判的反馈客观、瞬时、几乎零成本 , 模型几毫秒内就能拿到一个非黑即白的对错信号 , 可以在机器里疯狂自我对弈几百万次。这是 Sutskever 这条路线现在能跑通的地基 , 也是他那句 " 预训练时代终结 " 的下半句——他没说 AI 会停止变强 , 只是说变强的方式要换了。数据见底 , 不等于进步见底。

当然 , 这不意味着模型真的像人一样理解世界。换句话说 , 它是在一些可以判断对错的任务里 , 找到了一种更有效的进步方法 , 数学、代码、规则清晰的任务 , 是最先受益的地方——至于那些没有标准答案的问题 , 推理模型暂时还碰不到。

所以 , 推理模型不是万能钥匙。它最先改变的 , 是那些可以被清楚验证的领域——擅长解决一切能被编译成代码或形式逻辑的问题 , 天花板是 " 所有能用规则穷举验证的智能 "。这条路更接近一门几何学 , 公理摆在那里 , 对错有标准。

世界模型 :LeCun 路线 , 把真实世界变成裁判

LeCun 押注的是另一件事 : 很多真正重要的智能 , 规则写不出来 , 只存在于物理世界和人类共识里 , 这条路更接近一门物理学——规律要从现实里一点点观测出来。

互联网文本是有限的 , 但世界本身不是。从自动驾驶的道路数据 , 到机器人在工厂、仓库、家庭里的交互数据 , 再到实验室自动化、工业设备运行产生的传感器数据 , 以及仿真系统不断模拟生成的训练经验——这些都不是传统意义上的 " 网页内容 ", 但同样可以成为 AI 学习的来源。这也是世界模型、具身智能这些方向受到关注的原因 : 让 AI 不再只学习人类写下来的东西 , 而是从和环境的互动中获得新经验。

他押的 " 世界模型 ", 本质是把物理定律本身变成一种硬裁判 : 预测一个球往哪儿滚 , 违反物理规律会被现实当场打脸 , 这一点和确定性裁判一样干脆。但再往上一层——审美、常识、价值判断——物理定律管不到 , 这些问题活在模糊性裁判的地盘里 : 反馈主观、滞后、有成本 , 还充满噪声 , 同一件事十个人能给出十种判断。最终还是要靠人来当裁判。

这条路还很早。比如人形机器人 ,Figure、特斯拉 Optimus 这类项目目前最大的瓶颈之一 , 就是真实世界的交互数据采集成本极高——一台机器人跑一天积累的有效数据 , 可能远不如一段代码跑一次测试来得便宜、来得干净。世界模型距离真正理解物理世界 , 也还有很长距离。

但方向已经很清楚 :AI 下一步要学的 , 不只是互联网上的文字 , 而是现实世界里的因果、行动和反馈。

真正的分水岭 : 谁拥有反馈 , 谁拥有裁判

Sutskever 和 LeCun 的赌注方向相反 , 但背后指向同一个判断 : 谁能拥有更好的裁判 , 谁就能让 AI 继续进化。过去 ,AI 公司最想要的是更多数据 , 谁拿到更多高质量文本 , 谁就可能训练出更强的模型 ; 但现在 , 问题变了——互联网上的文本越来越多 , 也越来越杂 , 真正稀缺的不只是数据本身 , 而是判断数据有没有用的能力 , 也就是裁判 , 不管它是确定性的标准答案、测试用例 , 还是模糊性的用户反馈、任务结果。

这会改变 AI 竞争的重点。过去 , 模型公司拼的是算力、算法和训练数据 ; 未来 , 这些仍然重要 , 但还不够——谁能拿到更多真实任务反馈 , 谁就更可能让模型继续进化。

这也是为什么 Agent ( 智能体 ) 会变得重要。普通聊天机器人回答的是问题 ,Agent 要完成的是任务。回答一个问题 , 可以主要靠读过的内容 ; 完成一个任务 , 则必须进入真实环境。比如 , 一个 Agent 帮用户订票 , 不是只写一段建议 , 而是要查航班、比较价格、完成预订 ; 一个 Agent 帮程序员写代码 , 要运行测试、修复报错、提交结果。在这个过程中 ,AI 会留下完整的任务轨迹 : 用户想做什么 , 模型怎么拆解 , 哪里出错 , 怎么修正 , 最后有没有完成——这种数据比普通网页更有价值 , 因为它不只是记录 " 人类说过什么 ", 而是记录 " 一个任务是怎么被完成的 "。

未来 AI 竞争 , 很可能不再只是看谁拥有最多网页 , 而是看谁拥有最多真实任务闭环。任务在哪里发生 , 反馈就在哪里产生 ; 反馈在哪里积累 ,AI 就在哪里继续变强。

应用公司的机会 : 场景反馈才是护城河

对大多数 AI 创业者来说 , 这场 " 要裁判 " 的变化 , 反而让机会变得更清晰。

通用大模型训练已经不是普通创业公司能参与的游戏。算力、人才、数据和资金门槛都太高 , 创业者很难再靠自己训练一个通用大模型 , 去和 OpenAI、Google、Anthropic、DeepSeek 这些公司正面竞争。

但这不代表 AI 应用没有机会。恰恰相反 , 机会正在从 " 谁有大模型 " 转向 " 谁更懂具体场景 "。因为大模型公司拥有通用能力 , 但不一定拥有每个行业里的真实反馈——它们知道法律合同大概怎么写 , 却不一定知道哪些条款真的会被律师改掉 ; 知道教育题目怎么讲 , 却不一定知道学生为什么总在同一个地方犯错。

这就是 AI 应用公司的机会。一个 AI 产品真正值钱的地方 , 不是界面做得多漂亮 , 而是它能不能知道用户最后有没有真的解决问题。如果一个 AI 法律工具只是生成合同 , 很容易被替代 ; 但如果它能持续记录律师修改了哪些条款、哪些表达减少了争议 , 它就开始拥有自己的行业反馈。如果一个 AI 教育工具只是讲题 , 也很容易被大模型覆盖 ; 但如果它能知道学生每一次错在哪里、什么练习能真正提高掌握率 , 它就有了自己的数据闭环。

这些东西 , 才是未来 AI 应用公司的护城河。模型能力会越来越便宜 , 今天看起来很惊艳的功能 , 明天可能就变成基础设施。这也是为什么 " 套壳应用 " 越来越危险——如果一个产品只是把通用模型包了一层界面 , 它的价值会随着模型升级被不断压缩。

AI 应用的价值 , 会从 " 生成内容 " 转向 " 完成结果 "。谁能定义结果 , 谁才可能拿回定价权。

不是所有问题 , 都有标准答案

不过 , 裁判也不是请到就能用。

数学题有答案 , 代码能不能运行也能测试 , 围棋有输赢 , 广告投放有转化数据。这些都是确定性裁判说了算的领域 , 所以 AI 可以更快通过试错变强。

但很多真实问题 , 从头到尾都活在模糊性裁判的地盘里 : 一篇文章写得好不好 , 一个产品方向值不值得做 , 一个商业判断是否正确。这些问题没有唯一答案 , 也没有一个系统能立刻告诉你 " 对 " 或 " 错 "。用户点击了 , 不代表内容真的有价值 ; 转化率提高了 , 不代表策略长期健康——模糊性裁判给出的反馈 , 本身就可能是错的、滞后的、被操纵的。

所以 ,AI 的自我进化不会均匀发生 : 确定性裁判说了算的地方跑得快 , 模糊性裁判说了算的地方——审美、价值判断、商业决策、人际沟通——还是离不开人的判断。这也是为什么人类不会在这个过程中变得不重要。恰恰相反 , 越是进入真实任务时代 , 人类作为最终极的模糊性裁判 , 标准、判断和价值观就越重要。

AI 可以更快地探索可能性 , 但它未必知道哪一种可能性值得追求。

结语 :Sutskever 和 LeCun, 可能都没说错

回到开头那场争论。Sutskever 说数据见底、预训练要终结 ,LeCun 认为大语言模型不足以通向人类级智能——两个人吵的 , 根子上是在赌两种不同的裁判。

Sutskever 赌的是确定性裁判能覆盖的范围有多大 : 只要一个问题能被编译成代码、写成形式逻辑、化简成规则 ,AI 就能在自我对弈里疯狂进化。SSI 不发产品也敢拿 320 亿估值 , 赌的就是这套方法论的天花板足够高。o1、o3、DeepSeek-R1 至少证明了一件事 : 在数学、代码这类可验证任务上 , 模型确实可以通过强化学习和自我试错继续提升。LeCun 赌的是另一件事 : 很多真正重要的智能 , 规则写不出来 , 只存在于物理世界和人类共识里 , 世界模型只是第一步 ,AMI Labs 10.3 亿美元种子轮买的是这张更长期的船票。

一个解决的是 " 近两三年 , 数据不够用了怎么办 "; 一个解决的是 " 读完文字之后 , 智能的天花板到底在哪 "。两条路不是对立的选项 , 更像是同一条进化路径上的两段接力 : 确定性裁判先把能穷举的智能吃干净 , 剩下的硬骨头 , 迟早要交给模糊性裁判 , 或者干脆把物理世界本身变成裁判。

硅谷的钱已经替这场争论投了票 : 一边愿意为 " 近期答案 " 付 320 亿美元 , 一边愿意为 " 终局答案 " 付 10 亿美元的起步价。两头下注 , 恰恰说明这两条路谁也没法单独取代谁。

说到底 ,AI 学完互联网之后 , 下一步靠什么进化 ? 答案不是继续无限读网页 , 也不是吃自己的内容然后慢慢崩溃。更准确地说 ,AI 正在从一种学习方式走向另一种学习方式 : 过去靠阅读人类留下来的内容变强 ; 接下来 , 会更多靠做题、写代码、完成任务、进入环境、接受反馈来变强。

这就是后语料时代的真正变化。模型公司要争夺更好的反馈 , 平台公司要争夺任务入口 , 应用公司要争夺真实场景 , 创业者要把用户结果变成可以积累的数据闭环。

人类知识被 " 学完 " 不是故事的结束。它只是意味着 ,AI 终于走到了靠模仿无法轻松继续变强的地方。下一步 , 它要学的是更难的东西 : 如何行动 , 如何试错 , 如何接受反馈 , 如何在真实任务里形成经验。

至于它能走多远 , 要看我们能为多少领域 , 造出那个能判断对错、衡量结果、连接现实的 " 裁判 "。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

AI 没书可读之后，两个 AI 教父赌上了相反未来

宙世代

一起剪

相关阅读

苹果Epic六年纠纷再升级 美国最高法院同意受理苹果的上诉

Cursor做到600亿美元，还是没逃出模型厂的手掌心

RTX 5050 9GB等不到了！NVIDIA宁可复产三年前的RTX 3060

卫星板块继续修复！可回收火箭静态点火试验完成+商业航天IPO恢复问询

399元！诺基亚215 4G微聊版现货开售：功能机也能打视频电话、刷支付宝

安卓主流品牌集体放弃小折叠 网友：美丽的小废物被淘汰了

谷歌发布全新AI创作工具，加速多模态内容生成

八部门推动工业互联网高质量发展 工业AI应用有望加速落地

苹果首次上架iPhone 16e官翻机：约2853元起售

华为夺拍摄眼镜市场第一 超越千问、小米

没有意外！12家AI、6位嘉宾一致看好法国，3：0晋级八强

这次不一样！八部门重磅发布，事关算力基础设施！

爱去欧“一种过滤设备用膜滤组件”专利获授权

优全生活“一种基于机器视觉反馈的水刺无纺布微胶囊均匀喷涂系统”专利获授权

雷柏科技“一种鼠标动态调整方法、装置、系统、设备及介质”专利获授权

最新评论

钛媒体

热门推荐

企业资讯

苹果Epic六年纠纷再升级美国最高法院同意受理苹果的上诉

安卓主流品牌集体放弃小折叠网友：美丽的小废物被淘汰了

八部门推动工业互联网高质量发展工业AI应用有望加速落地

华为夺拍摄眼镜市场第一超越千问、小米