文 | ICT 解读者—老解
2025 年 1 月,DeepSeek-R1 横空出世,560 万美元的训练成本、545% 的成本利润率,一串数据炸穿了中美 AI 圈对大模型研发的常识。美国风投家马克 · 安德森称之为 AI 领域的 " 斯普特尼克时刻 "。梁文锋登上《时代》周刊全球 100 影响力人物榜单,《自然》年度十大科学人物榜单上赫然在列。
但一年后的 2026 年 4 月,故事急转直下。
据晚点 LatePost 报道,2025 年下半年至今,DeepSeek 至少 5 名核心研发成员确认离职——第一代大语言模型核心作者王炳宣去了腾讯,V3 核心贡献者罗福莉被雷军千万年薪挖至小米,R1 核心研究员郭达雅以传闻近亿元总包入职字节跳动 Seed 团队,OCR 系列核心作者魏浩然和多模态成果核心贡献者阮翀也先后离开。5 个人,覆盖了基座模型、推理、OCR、多模态四条核心技术主线。
与此同时,DeepSeek 被曝正与投资人洽谈首次外部融资,寻求以超 100 亿美元估值筹集至少 3 亿美元——这个曾经拒绝过多家顶级 VC 和科技巨头投资邀约、坚持 " 纯搞 AGI 创新 " 的技术理想主义者,终究开始向资本低头。V4 模型从原定 2026 年 2 月中旬一推再推,至今仍未正式发布。
这不是一个人的理想妥协,这是整个国产 AI 硬科技初创公司在巨头碾压下的一面镜子。
200 人的团队,走了几个就能动摇根基
DeepSeek 总共不到 200 人,核心研究团队约 100 多人,基模架构团队仅小几十人。更关键的是,这支团队的构成极为年轻:本科和硕士占比超七成,30 岁以下超七成,几乎不社招,以应届生和实习生留任为主。
在这样一支规模不到大厂十分之一、人均工作时长不到大厂一半的精锐团队中,每一个核心研究员的权重都被放大到了极致。王炳宣参与过历代模型训练,是 DeepSeek 从 0 到 1 的基座搭建者;郭达雅是 V2、V3、R1 系列模型的核心作者,一个人横跨推理、代码两大方向;罗福莉是 V3 模型的关键开发者,被雷军亲自下场招募。
对大厂而言,流失一个核心研究员是局部损失;对 DeepSeek 而言,流失一个核心研究员意味着整条技术线出现断层。这不是夸大其词,而是小团队的先天脆弱性——人少意味着每个人都是单点依赖,没有人可以被 " 替代 "。
薪资的数学题:情怀打不过 2 到 3 倍
人才为什么走?先算一笔账。
据多方信源,DeepSeek 的绝对薪资并不低,但竞争对手开出的条件 " 翻 2 到 3 倍问题不大 ",部分甚至给出 8 位数总包(含股票 / 期权)。罗福莉的案例最具代表性——雷军以千万年薪加码招募,亲自盯这件事。郭达雅虽被字节官方否认 " 亿元年薪 ",但多路信源指向其总包远超 DeepSeek 的薪酬体系。
再对比 AI 行业的整体薪酬水平:大模型算法工程师月薪中位数已达 24760 元,顶尖人才年薪逼近 200 万元。北京海淀区官方发布的紧缺岗位目录显示,人工智能领域整体平均年薪为 48.14 万元,而芯片算法与设计优化工程师年薪已突破百万元。
DeepSeek 的另一重劣势在于长期激励的缺失。2023 年后,DeepSeek 未再进行外部融资,员工期权协议没有明确的公司估值支撑,流动性几近于零。梁文锋曾以类似 OpenAI 与微软的 " 回报上限 " 协议尝试接触投资人,没有机构接受。没有估值、没有上市预期、没有期权变现通道——这纸期权在账面上可能是天文数字,在现实中是一张无法兑现的期票。
大厂则恰恰相反。字节跳动虽未上市,但期权有明确的流通渠道;腾讯的股票激励体系成熟;小米在港股上市,薪酬 + 期权的组合包可以做到精准定价。当一个 95 后研究员面临 "DeepSeek 的无限可能 " 和 " 字节的 8 位数确定性 " 二选一时,理性的选择并不难做。
不只是钱的事:算力、生态和 " 被替代 " 的恐惧
如果把 DeepSeek 的人才困境归结为 " 给不起钱 ",就低估了问题的复杂性。薪资只是表面,背后是三层结构性矛盾的叠加。
第一层:算力鸿沟。 大模型训练的本质是算力竞赛。DeepSeek V3 的训练成本是 560 万美元,但那是基于英伟达架构的极致效率优化。V4 转向国产算力适配后,梁文锋自己承认了一个残酷事实:国内最好的水平和海外最好相比,模型结构和训练动力学上可能有一倍差距,数据效率上也有一倍差距," 合起来就要多消耗 4 倍算力 "。而大厂——字节跳动 Seed 团队规模上千人,阿里达摩院、腾讯 AI Lab 同样拥有万卡级算力集群——在算力储备上,初创公司和大厂之间是一道量级级的鸿沟。
第二层:生态落差。 大模型的价值不在于模型本身,而在于模型嵌入产业生态后的变现能力。字节有抖音、飞书等数亿级用户场景可以即时验证和落地;阿里有电商、云计算的完整 AI 商业化链路;腾讯有社交、游戏的庞大流量池。DeepSeek 的技术再强,在商业化落地层面依然停留在 API 调用和开源模型输出,技术成果转化为商业价值的路径远长于大厂。对技术人员而言,研究成果能被数亿人使用,和研究成果停留在论文和排行榜上,职业成就感完全不同。
第三层:信心动摇。V4 从 2026 年 2 月中旬一推再推,至今未正式发布。在 AI 行业,模型的发布节奏就是技术生命线。当 OpenAI 连续推出 GPT 系列迭代、Claude 快速升级、字节豆包市场份额持续攀升时,DeepSeek 在 V3.2 之后的 " 静默期 ",对内部信心的侵蚀远超外部想象。一个没有明确绩效考核、没有 DDL、每天下午 6 点下班的研究团队,当外部竞争压力加大、内部看不到新一代模型落地的节点时,人才出走只是时间问题。
双向流动的真相:巨头也在流血
值得注意的是,人才争夺战并非单向收割。过去一年,字节跳动 Seed 团队同样流失了近 70 名技术人才——近 30 人加入腾讯 AI Infra 团队,部分流向阿里、OpenAI、Google、Meta 等。字节系前员工创办了 30 余家 AI 创业公司,覆盖 Agent、多模态创作、具身智能等赛道。
而 DeepSeek 也在吸纳人才:从字节搜索团队挖来李宇琨(DeepSeek 首位员工,负责预训练数据),从字节 Seed Edge 引入徐名宇(从事模型结构研发)。人才的流向从来不是单向的,但格局很清晰——大厂和初创公司之间的人才交换,大厂凭借规模和确定性,始终处于净流入端。
这意味着,DeepSeek 面对的不是一个偶发的人才流失事件,而是一个系统性的竞争劣势:在人才市场的 " 汇率 " 中,大厂的薪酬包、算力储备和生态场景构成了 " 硬通货 ",初创公司能打出的牌,只有技术理想和组织自由度——这两张牌,在现实面前越来越不好用。
梁文锋的妥协与代价
2025 年下半年起,梁文锋开始发生转变:从技术理想主义者向商业化实践者靠拢。
具体动作包括:2025 年秋天起频繁提及产品化和商业化方向,首次招聘 " 模型策略产品经理 " 等非研究岗,开始想办法给公司做估值、给团队更确定的预期。2026 年 4 月 17 日,The Information 报道 DeepSeek 正在以超 100 亿美元估值寻求至少 3 亿美元首轮融资。
这是一个标志性事件。2023 年,梁文锋拒绝了所有外部投资,坚持独立发展。三年后,核心人才出走、V4 迟迟难产、国产算力适配工程量远超预期——纯粹的技术理想,终究要为算力账单和人才账单买单。
但问题在于,接受融资只是第一步。融资到位后,DeepSeek 将面临一个更棘手的平衡题:如何在引入资本后保持技术团队的专注力和自由度?如何在提升薪酬竞争力的同时避免大厂化的层级膨胀?在 V4 发布后,技术领先性能否转化为商业壁垒?
这些问题,没有一个是靠钱能解决的。
结语
DeepSeek 的人才困局,给整个 AI 行业提了一个醒:当核心人才可以用 8 位数总包精准定价时,技术理想就成了最廉价的留人工具。
这不是对 DeepSeek 的否定。在不到 200 人的团队规模下,用远低于大厂的算力和人力,做出 V3/R1 这样震动行业的产品,本身就是中国 AI 硬科技实力的证明。但这也恰恰说明了一个残酷的现实——在技术密集型赛道上,个体的技术突破可以被复制,而系统的资源优势不可逾越。
对整个行业而言,需要思考的不是 "DeepSeek 能不能留住人 ",而是 " 如何在巨头的资源碾压下,为技术理想主义留出生存空间 "。这个问题,比任何一个模型的训练成本都更值得算清楚。