
作者|李一飞
编辑|陈伊凡
头图|AI 生成
"AI 原生 100" 是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「31」篇文章。
两个滑铁卢大学生,靠数据标注平台,在半年里赚了 290 万美金,并在成立一年多的时间,撬动了 1770 万美元(约合人民币 1.2 亿元)的融资。

这就是 Datacurve,一个试图挑战 Scale AI 的年轻公司。
高质量数据领域的争夺已经成为了 AI 里最激烈的战场。催生了 Scale AI、Turing、Surge 以及 Mercor 这样的公司,Scale AI 作为这个领域绝对独角兽,估值已经达到 200 多亿美元,我们的 "AI 原生 100" 栏目之前写过的 Turing 这家公司,估值达到 22 亿美元。
Datacurve 区别于这些数据标注公司一个很重要的点,也是我们之所以在栏目中介绍这家公司的原因是,他们选择了一个" 游戏化标注" 的方式,
它搭建了一个名为 Shipd 的平台,将算法题、调试任务、测试用例等中高难度编程挑战打包为 " 通关任务 "(Quests),明码标价邀请工程师参与完成,任务通过后即可获得现金报酬。这些经过工程师验证的数据最终会被售卖给 AI 公司或模型实验室,用于训练和微调大模型。
这种 " 赏金猎人 " 的方式给 Datacurve 积攒了人气。2025 年 10 月,Datacurve 宣布完成 1500 万美元 A 轮融资,累计融资总额达到 1770 万美元。这轮融资由 Chemistry 的 Mark Goldberg 领投,DeepMind、Anthropic、OpenAI 等 AI 一线公司员工也出现在投资名单中。
虎嗅和业内投资人聊过数据标注公司的模式,对这些公司来说,除了数据质量,组织管理也至关重要,这些负责标注的人就类似一种 " 零工 " 的形式,如何有效管理这些数据标注师,通过精细化管理,让这些 " 零工 " 参与到数据标注中。
如何用非金钱诱惑撬动顶尖工程师?
Datacurve 在官网提到,旗下 Shipd 平台目前已经吸引超过一万四千名工程师注册参与任务。
这个数据引出了一个关键问题:在报酬远低于正式开发工作的情况下,为什么仍有如此多具备中高级技能的工程师愿意投入时间与精力参与这样一项看似数据标注的任务?
在公开采访中,CEO Serena Ge 给出了答案,她强调金钱并不是最强的驱动力,真正吸引工程师留下的是平台提供的挑战感、游戏感与参与体验。她将 Shipd 定义为 "a consumer product, not a data labeling operation",Shipd 是一个供玩家消费和体验的产品,金钱只是附加奖励。
为了实现这一理念,Datacurve 从以下几个方面优化了用户体验,提升了平台的吸引力:
其一,任务本身具备足够的技术挑战性。平台通过设定多层验证机制,包括自动测试、同行评审与专家审核,确保数据集达到研究级标准。这种设计既提高了数据质量,也提升了工程师的技术门槛,从而增强了他们面对任务时的解题动机。

其二,平台引入了 " 赏金猎人 " 形式与游戏化结构。Shipd 中的任务被包装为 "Quests",涵盖算法挑战、调试任务、UI/UX 生成等内容。平台设有排行榜、连胜奖励与任务等级,参与者在其中既是解题者,也是竞技者。这些机制让任务更像一场技术副本,而非一份重复工单,也为工程师提供了可量化的声望积累。
其三,Shipd 试图搭建一种工程师为中心的社区文化,平台多次强调 engineer-first culture,力图为高技能参与者提供一个有归属感、认可度与专业认同的生态环境,而非单纯的任务派发系统。
这种 " 游戏化 + 精英制 " 的设计,让 Shipd 与传统平台形成了鲜明对比,它并不试图让所有人都能参与,而是挑选能完成特定类型任务的那一类人。从工程师侧来看,这种机制既好玩、有成就感,也有现实收益;从平台侧来看,它在数据质量这件事上建立了筛选机制,形成了独特的护城河。
Shipd 成了一个介于挑战、游戏、交易与知识生产之间的混合型产品,它靠的不是更多的人,而是更强的人和更优质的数据。
产品理念与冷启动过程
Datacurve 的起点是从需求倒推回来的。
Serena Ge 曾在 Cohere 实习,参与大语言模型的训练项目。Cohere 是一家从事大型语言模型和 AI 产品开发与商业化的人工智能技术公司,致力于提高内部模型的推理能力和代码生成能力;相比之下,Datacurve 则专注于外部数据收集,致力于构建更高质量、更具挑战性的编码数据集。两家公司的性质差异决定其天然是上下游合作伙伴,而这种技术合作也延续到资本层面,Cohere 后来成为 Datacurve 的早期投资人之一。
在 Cohere 的实习经历令 Serena Ge 很快意识到一个现实困境:模型能力越来越强,但高质量编码数据的供给却始终是瓶颈。传统标注方式无法满足模型所需的复杂度与专业性,而缺失的数据又像一块空白拼图,直接影响模型的实际能力。
如果把这些缺失的数据变成具备挑战性质的题目,把数据标注变成以游戏化平台激励工程师贡献数据呢?
在这样的想法推动下,Serena 和 Charley Lee 尝试搭建了一个简化原型并在几个技术社区尝试发布任务、收集回应。他们发现这些测试任务很快吸引了一批对另类编程挑战感兴趣的工程师,而这些人给出的反馈远远超出他们预期:不仅认真完成任务,还提出了改进建议,并希望能获得排行榜积分。
这一尝试为 Datacurve 打通了进入硅谷最大孵化器—— Y Combinator 的大门。2024 年冬季,Datacurve 正式入选 YC 冬季项目中,并在这期间完成了平台早期版本的开发、跑通了任务的评审机制,也验证了平台在工程师群体中的吸引力。

Serena 始终认为 "Shipd 是面向工程师的消费者产品,而不是数据标记操作。" 他们将大量精力投入在用户体验优化上,每一处都朝着 " 让人愿意来、愿意留 " 的方向打磨。平台上线不久就已支付出超过 100 万美元的赏金,吸引了来自亚马逊、AMD 等企业的高级工程师参与,并获得正向反馈。
在打通数据收集与社区运营这两个核心环节后,Datacurve 开始推进商业化路径。在产品启动初期,Datacurve 聚焦于与高端 AI 实验室和工具型初创公司建立合作,包括 OpenAI、Anthropic 等基础模型实验室,以及面向开发者的智能编码工具团队。依托早期投资人网络与口碑传播,Datacurve 逐步实现高质量数据的对接与销售。
Datacurve 成立于 2024 年,不到一年便完成种子轮与 A 轮,总融资达 1770 万美元,成功实现了从融资到打通工程师、获取高质量数据,再到对接顶级客户,随后融资增长的闭环,呈现出一条清晰的初创公司成长路径。
代码归谁:版权风险与合规机制
在 Datacurve 的平台上,工程师提交的每一份代码最终都会被打包进高质量数据集售卖给 AI 公司。这不由让人思考:代码的归属权到底是谁的?这些数据真的安全吗?这并非单一平台的问题,而是整个数据标注行业的普遍挑战。
作为数据标注领域的代表性公司,Surge AI 采用 human-in-the-loop 机制,由领域专家配合定制化模型共同完成标注,确保输出不仅精准,还具备较好的上下文理解力。面对敏感或模糊任务,平台通常安排多轮人工复核,尽量减少偏差与误判。在合规层面,Surge AI 提供可审计的数据流程,支持客户对数据使用路径进行追踪与管理。尽管如此,Surge AI 也曾被爆出内部文档泄露,可见其仍存在监管与安全漏洞。
Datacurve 的解题思路则是在机制上做了几层防护:
第一层是贡献者声明。每个工程师在提交代码前都要签署一份承诺书,保证自己提交的内容是原创的或者已经拥有足够的使用授权。
第二层是自动抄袭检测。平台会用工具自动扫描代码内容,识别是否存在复制、篡改或来自敏感源的内容,避免搬运工混进来。
第三层是共识评审机制。一个任务的解决方案不只由平台验收,还会交给多位工程师打分。这种同行互评,既提高了解法质量,也相当于多双眼睛在帮忙看有没有版权风险。
除此之外,Datacurve 还从源头控制任务来源,也就是优先发布来自受控仓库的题目,避免涉及企业私有代码。有些任务甚至要求工程师在沙盒环境中从零写起,不允许修改已有代码。
在法律层面,Datacurve 也做了清晰的划分。平台通过 " 数据合同 " 和 " 许可协议 " 来定义数据的使用范围、归属权和责任边界,无论是客户还是贡献者,合作的前提都是双方知道自己在交什么、买什么、承担什么。
当然,机制做得再多,公司可能面临的版权风险在数据走向规模化和跨机构流通的过程中依然不能忽视。目前来看,Datacurve 的做法已比传统数据平台更扎实,只是这些风险防范措施是否能撑得住未来复杂的版权诉求,仍待实践验证。
亚裔聚集的数据标注领域
在数据标注领域,聚集了亚裔创始人的身影。
虎嗅和业内投资人探讨过这个问题,数据标注领域是个苦活儿,亚裔努力的特质可能更适合这个行业。
无论是已经在行业领先的独角兽巨头 Scale AI,还是将专家网络转为训练工厂的 Mercor、Turning,亦或是刚刚崭露头角 Datacurve,我们都能看到一群来自不同文化背景的亚裔面孔。我们整理了部分代表性的团队成员和他们正在推动的产品方向。
| 公司 | 成立时间 | 核心团队亚裔成员 | 公司背景(原生数据公司 /HR 公司转型) | 专注方向(精细高端化 / 一站式平台) | 核心业务 | 核心竞争力 |
|---|---|---|---|---|---|---|
| Scale AI | 2016 | Alexandr Wang(CEO)、Lucy Guo(联合创始人) | 原生数据公司 | 一站式平台 | 数据标注、模型评估与平台能力 ; 深耕自动驾驶、生成式 AI、国防领域 ; 设有安全对齐实验室 | 深耕自动驾驶、生成式 AI、国防等垂直领域 ; 设有安全对齐实验室 |
| Turing | 2018 | Jonathan Siddharth (CEO)、Vijay Krishnan (CTO) | 人力资源公司转型 | 精细高端化 + 人才云一体化 | 人才云服务、AI 驱动匹配 ; 训练数据与人才管理一体化 ; 合作客户含 OpenAI 等 | AI 驱动的人才匹配技术 ; 与 OpenAI 顶级客户的合作关系 |
| Mercor | 2023 | Adarsh Hiremath(CTO)、Surya Midha(联合创始人) | 人力资源公司转型 | 精细高端化 | 用 AI 面试筛选跨领域人才,承接 RLHF、SFT、Eval 任务 | AI 驱动的人才匹配技术;高薪酬吸引顶尖专家; 与 OpenAI、Anthropic 等签下长约 |
| Surge AI | 2020 | Edwin Chen(CEO) | 原生数据公司 | 精细高端化 | 高质量数据标注、RLHF 支持、NLP 与对抗训练等 | 严格的质控流程、专家级标注团队和现代化 API 接入能力 |
| Datacurve | 2024 | Serena Ge(CEO)、Charley Lee(CTO) | 原生数据公司 | 精细高端化 | 高质量数据标注 | " 赏金猎人 " 模式吸引熟练的软件工程师、工程师优先理念、严格的质量控制措施 |
虎嗅根据公开资料整理
在梳理这些数据标注公司时,我们也发现,这些数据标注公司基本分为几大类,一类是由人力资源公司转型而来,例如 mercor 和 Turing;一类是新型数据公司转型而来。
Mercor 最初是一家 AI 招聘公司,通过 AI 面试技术匹配技术人才,拥有一个高质量的专家人才库。随着 AI 数据标注需求的增长,Mercor 依托其积累的医生、律师等专家资源迅速转向为 AI 实验室提供数据标注服务。这一转型使其从 Scale AI 的劳务供应商蜕变为直接竞争对手,特别是在 RLHF 和垂直领域标注任务方面,Mercor 展现出了很强的竞争力。
Turing 的转型路径与之类似。Turing 最初专注于远程工程师招聘,通过 Talent Cloud 模式建立人才库。随着市场需求演变,Turing 逐步扩展至 AI 基础设施服务领域,将业务范围从人才匹配延伸至代码数据标注、模型微调及企业 AI 转型咨询,实现了从单一人才服务向训练数据与人才管理一体化平台的转型升级。
Datacurve 面临的竞争压力并不小,最直接的是来自 Surge AI,两家都是走精细化高质量数据的路线。并且 Datacurve 的赏金模式看似新颖,但复制门槛却并不高,真正决定平台护城河的是它能否真的持续产出对模型性能有帮助的数据,能否在高质量与可扩展性之间找到平衡,能否维持社区内工程师的长期参与。
不过,Datacurve 并未把未来押在工程师数据这一条路上,创始人 Serena Ge 已明确表示他们的平台机制具备跨行业迁移的能力,未来可能拓展到金融、医学、营销等垂直专业领域。
