文 | 新质动能,作者 | 沐风,编辑 | 小峰
近日,扎克伯格砸出 143 亿美元(折合人民币约 1066 亿元),拿下了 Scale AI 49% 股权,豪赌其背后的华人天才 Alexandr Wang。
这个华人有多牛呢?18 岁从 MIT 辍学创业,22 岁就登上《福布斯》封面,24 岁成为世界最年轻的白手起家亿万富翁,25 岁接下五角大楼的 AI 合同,现在 28 岁,他加入 Meta,领导超级智能团队。
别人在卷大模型、算力和芯片,他就老老实实干了一件事:喂数据。更准确地说,是帮这些 AI 公司把海量原始数据清洗、标注、组织成能用的格式,然后送进训练系统。
干的听起来不光鲜,像个 " 数据外包厂 "。但就是这活儿,被他做到极致,客户里有 OpenAI、Meta、微软、特斯拉,甚至还有美国军方。
而这一次,扎克伯格的天价收购背后也很复杂:
一边是自己 AI 进展不力,一边是 OpenAI 和谷歌越跑越快,Meta 急了。与其自己一边烧钱一边出问题,不如干脆把给大模型 " 供粮 " 的公司拉进来。
问题是,Wang 真能扛得起 Meta 的重任吗?
143 亿美元押注 "AI 搬砖人 "?
最近,一条消息在硅谷刷屏:Meta 斥资 143 亿美元,与数据标注巨头 Scale AI 达成重磅合作。
这不是小打小闹的项目外包,而是 Meta 把自家 AI 大模型的训练、优化、数据管理,全面托管给了 Scale AI。这笔交易金额刷新了近几年 AI 基础服务领域的记录。
很多人好奇:一个做标注外包的,凭什么值这么多钱?
再看得细点你就懂了——这是 Meta 的 " 救命钱 "。
2024 年,Meta 在 AI 赛道的表现可以说是一喜一忧:
喜的是,Llama 3 开源后,一度带动开源圈爆发;
忧的是,Llama 4 迟迟无法上线,内部训练团队进度落后,人才出走严重,顶级科学家 LeCun 孤掌难鸣,AI 团队内部气氛极度拉扯。
与此同时,OpenAI 发布 GPT-4o,Google Gemini 全面进化,连 Anthropic 都在加速商业化。Meta 在 AI 主赛道上的 " 掉队感 " 肉眼可见。
扎克伯格这才意识到:与其自己拼命卷算法、造模型、炼数据,不如直接买那家所有 AI 公司都在用的服务提供商。
而 Scale AI,就是这家数据商的幕后王者。
这家公司主要帮 AI 模型准备训练用的数据。听上去像是数据清洗 + 标注的外包服务,没技术含量。但就是这行低调、枯燥的活儿,成了 AI 时代的必争资源。
GPT、Gemini、LLaMA 这类大模型,背后都要喂入上千亿 Token 的高质量训练数据。Scale AI 就像一台 " 工业化数据提纯机 ",把原始网页、文档、音视频切片处理、过滤噪声、手动标注,再分类输出到模型系统中。
这个过程,如果出错 1%,模型质量就可能掉一大截。
而 Scale AI 的标注系统,可以做到:
精度达 99.7%,行业平均只有 85% 左右;
每日处理数据上亿条,涵盖 217 种语言、图像、动作、语音场景;
后台由数万个外包 " 标注员 " 组成,分布在菲律宾、菲律宾、印度、肯尼亚、委内瑞拉……
Meta 过去两年自己尝试建立类似体系,发现成本高、出片慢、人力不稳定,干脆停掉自研训练数据团队,绑定 Scale AI。
那么,这家被扎克伯格 " 豪赌 " 的公司到底是什么来头?它的创始人,又凭什么成了硅谷最值钱的年轻人呢?
答案是:Alexandr Wang,年仅 28 岁、从 MIT 辍学的华裔天才,被誉为 " 硅谷最强数据商人 "。
他用不到十年时间,把数据标注做成了一条全球 AI 公司都离不开的产业链,连五角大楼都成了他的客户,连 OpenAI 都在用他家的训练集。
而扎克伯格这次,直接把 Meta 的 AI 命脉交到他手上。问题是,Wang 扛得住吗?他这套打法,又是怎么做出来的?
一路开挂的华裔天才少年
Alexandr Wang 创业的起点,更像是 "AI 行业的数据搬砖人 "。
他出生在美国新墨西哥州的一个物理研究小镇,父母都是在国家实验室担任核物理学家。中学时他就爱上编程,没毕业就自学了斯坦福大学的计算课程。
17 岁进 MIT,第一学期上的是研究生级别的机器学习课,还没上完就辍学了——不是因为挂科,而是因为他有个想法太想干。
起因也很简单:他想在自家冰箱上装摄像头,实时监控 " 牛奶有没有快喝完 "。结果发现,根本无法获得足够的数据来训练系统。
于是他想明白了:未来 20 年的 AI 要想取得突破,数据将是关键障碍之一。
2016 年,他离开 MIT,进入硅谷最火的创业孵化器 Y Combinator,一边招人,一边搭平台,成立了 Scale AI,使命很直接:为 AI 模型做标注和数据清洗的基础服务。
说白了,就是搞 "AI 数据外包 "。
早期团队不到 10 人,Wang 自己白天谈客户,晚上搭系统,还要参与人工质检。
听着简单,干起来极其繁琐。但 Wang 对质量要求极高:一旦错误率超过 1%,立即返工;只要客户体验不好,全部手动跟进。
靠这种 " 死磕式质量管理 ",Scale AI 慢慢拿下了越来越多客户:
2018 年,成为 OpenAI 的早期训练数据供应商;
2019 年,特斯拉把 FSD(自动驾驶)辅助数据标注外包给 Scale;
2020 年起,美国国防部向其采购了用于军事图像识别和卫星标注的服务;
截至 2024 年,客户覆盖 OpenAI、Meta、微软、丰田、通用等数十家 AI 巨头和自动驾驶企业。
最狠的是,它不只是卖 " 数据 ",而是把整个 " 数据链 " 变成了产品。
Wang 开发了一整套数据操作系统——包括数据采集、清洗、去重、标注、分类、上传、动态更新……而且全部自动化协同,最大程度减少人工干预。
这使得 Scale 成为了全球唯一一个能大规模、工业化提供高质量 AI 训练数据的平台型公司。
它不是 " 谁都能复制 " 的服务外包,而是 " 技术 + 系统 + 规模 " 构成的壁垒。
2021 年,Scale AI 完成最新一轮融资,估值飙升至 70 亿美元。Wang 年仅 25 岁,就登上了《福布斯》" 全球 30 位 30 岁以下科技人物 "。
扎克伯格没时间等了
如今,外界看这场 Meta 与 Scale AI 的绑定,很多人以为就是一次 " 高价外包 ",但其实,它比你想得更急。
过去几年,Meta 在 AI 上的布局并不慢:
招来了图灵奖得主 LeCun,主导 AI 实验室 FAIR;
连续推出 LLaMA 1、2、3,打入开源大模型圈子;
自研硬件(如 MTIA AI 芯片)、新算力基础设施也同步推进。
但问题是——没一个成了主力。
LLaMA 虽然在圈内火,但在实际商用上远不如 OpenAI 的 ChatGPT、Anthropic 的 Claude;
FAIR 团队内部学术氛围浓重,论文多、产品少,执行力拉垮;
Meta 虽然有 Facebook 和 Instagram 的大量数据,但质量不稳定、版权风险高,不能直接用于训练。
到 2024 年初,扎克伯格发现:再这么搞下去,LLaMA 4 根本来不及上线,Meta 可能彻底错失 AI 窗口。
这时候他终于做了一个决定:别再自研数据了,直接绑定最顶的那家数据厂—— Scale AI。
这不是被逼疯,而是看清了趋势:
AI 的胜负,关键早就不是谁的算法最巧,而是谁能喂得起大模型、谁能训得快;
谁掌握数据入口,谁就掌握了 AI 战局的主动权。
Scale AI 恰好就是这个入口。
它能用最低的成本、最快的效率、最稳的质量,给模型提供训练所需的一切 " 数据燃料 "。而 Meta 缺的,就是这个能力。
更关键的是,Wang 保留了运营权,也继续对外提供服务。
换句话说,扎克伯格表面是绑定了个供应商,实际上是把 AI 战场的 " 加油站 " 收入自己地图范围内了。
一旦 Meta 拿到了数据供应链的掌控权,LLaMA 的训练节奏就不再被动了。
但这也意味着,战局要变了:
谷歌计划终止与 Scale AI 的合作,OpenAI 则加快扶持 Scale 对手 Handshake 的速度;其他大模型公司开始重新评估 " 数据依赖 ",担心自己的燃料来源随时 " 被拔管 "。
而这场合作背后的赢家,就是那个原本被叫做 "AI 搬砖人 " 的 Alexandr Wang。
他现在在战场中处于一个独特地位:
能同时为 OpenAI、Meta、美国国防部供数据;
拥有最完整数据清洗、标注、分发系统;
能调动 10 万人力、上万台 GPU 的 " 数据调度指挥官 "。
结语
这一次,扎克伯格豪赌 Alexandr Wang,不只是买服务,是希望他救 Llama;
但 Wang 想做的,可能是打造一套让巨头都得靠他活的 " 数据操作系统 "。
一边是硅谷最急的买家,一边是最冷静的供货商。
未来这场双人舞,是合力反击 OpenAI,还是彼此角力,我们很快就会看到。
只不过,这次牌桌上的发牌人,可能不再是 Altman,也不再是扎克伯格,而是那个从标注干起的华裔少年。