关于ZAKER 合作
量子位 4小时前

vLLM 团队创业,种子轮 10.5 亿!清华特奖游凯超加盟

开源模型都在用的重要推理框架 vLLM,核心团队宣布创业了!

创始团队官宣,成立新公司 Inferact,种子轮即斩获 1.5 亿美元(约 10.5 亿人民币)融资,估值达 8 亿美元(约 56 亿人民币)。

这一规模创下了近期 AI 基础设施领域的融资新高,也是有史以来规模最大的种子轮融资之一。

投资方指出,随着 AI 应用落地,行业焦点正从训练转向推理,如何低成本、高可靠地运行现有模型已成为新的痛点。

Inferact 正是为了解决这一 " 推理瓶颈 " 而生,旨在构建下一代商业引擎以应对大规模部署挑战。

出任 CEO 的 Simon Mo 也表示,这反映了市场机遇的广阔,因为在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省。

vLLM 商业化,Inferact 正式成立

本次 1.5 亿美元的种子轮融资由 Andreessen Horowitz(a16z)与 Lightspeed Venture Partners 共同领投。

除了两大领投方,跟投名单中还出现了红杉资本(Sequoia Capital)、Altimeter Capital、Redpoint Ventures 以及真格基金(ZhenFund)。

如此豪华的投资规模集中在一家刚成立的初创公司身上,显示出资本市场对于 AI 基础设施赛道风向的剧烈转变。

a16z 合伙人 Matt Bornstein 指出,随着大模型能力趋于成熟,开发者已不再单纯等待模型架构的更新,而是开始大规模部署现有模型。

这一转变带来了新的难题,即当应用程序需要频繁与大模型进行交互时,算力成本和系统负载会呈指数级上升,推理环节因此成为制约行业发展的最大瓶颈。

市场对于低成本、高可靠运行现有模型的需求,目前已经超过了对新模型研发的期待。

作为 Inferact 的技术基石,vLLM 在此之前已经进入了工业界的实际生产环境。

亚马逊目前已采用该技术,而且是直接应用于自身核心购物应用的内部系统。

这种来自万亿级商业场景的实际部署,在真实的高并发流量下验证了技术的稳定性,也让资本市场看到了技术在大规模商业落地上的确定性。

面对开源与商业化的平衡问题,Inferact 目前的策略是维持双线并行。

公司明确表示将继续支持 vLLM 作为一个独立的开源项目发展,并将技术改进回馈给社区。

在商业层面,团队将目光投向了硬件适配的效率问题,计划开发独立的商业产品,帮助企业在不同类型的硬件上运行 AI 模型。

从 vLLM 到 Inferact

vLLM 创立之初,团队自己都认为是一个 " 副业 " 项目。

但如今的 Inferact 时刻前夕,vLLM 已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时,都会将 vLLM 作为首选支持的推理框架。

在 a16z 合伙人 Matt Bornstein 主持的深度对谈中,Simon Mo 和 Woosuk Kwon 回溯了 vLLM 如何从一个不起眼的 " 副业 " 一步步走到聚光灯下的全过程。

最初,vLLM 仅仅是两人在伯克利求学期间的一个 Side Project,驱动代码更新的动力源于一种极其朴素的技术信仰——

他们坚信,在这个大模型重塑世界的时代,开源代码必须是全球 AI 基础设施的地基。

这种纯粹的初衷,让 vLLM 在没有商业推广的情况下,迅速成为了开发者社区的宠儿。

然而,随着项目从实验室走向工业界,团队的角色发生了质的转变。

作为核心维护者,他们不仅是在写代码,更是在与全球最顶尖的开发者协作,这种高强度的社区互动成为了他们技术能力的 " 炼金石 "。

他们积累了独有的技术洞察,并确立了在行业内的权威身份,构成了后来他们能够驾驭一家独角兽企业的底层能力。

但在这一过程中,现实的引力也越来越重。他们发现,当推理任务从简单的 Demo 演示变成数千张 GPU 集群的生产级部署时,挑战的量级呈指数级上升。

" 推理正在变得越来越难 ",这是团队在第一线摸爬滚打后得出的痛切结论。

现有的开源方案在面对深度底层优化、大规模集群的线性扩展以及复杂的 GPU 部署流程时,往往显得力不从心。

企业需要的不再是零散的代码库,而是能够稳定承载万亿次调用的工业级引擎。

为了攻克那些开源社区难以消化的 " 硬骨头 ",必须引入严密的商业组织形式构建下一代引擎。

与此同时,为了在商业化的同时保证开源项目继续运行,Inferact 设计了一套独特的反哺机制,利用商业资源继续滋养 vLLM,确保这个曾经的副业项目能继续作为行业的基石繁荣生长。

伯克利博士携手清华特奖

Inferact 的 CEO 由 Simon Mo 担任。

他曾就读于加州大学伯克利分校电气工程与计算机科学系(EECS),主攻机器学习系统设计方向。

在此之前,他是 Anyscale 的早期工程师,积累了将分布式系统科研成果转化为工业级产品的工程实践经验。

作为 vLLM 项目的原始维护者之一,他主要负责项目的工程化构建与社区运营。

另一位联合创始人是 vLLM 项目的发起人 Woosuk Kwon。

他拥有加州大学伯克利分校计算机科学博士学位,师从 Ion Stoica 教授,研究重点聚焦于大语言模型的高效服务系统。

他在博士期间提出了 Paged Attention 算法,通过引入操作系统中分页内存管理的思想,解决了 KV Cache 显存碎片化问题,这一算法创新为 vLLM 在吞吐量性能上的提升提供了核心技术支撑。

团队的核心技术力量还包括清华特奖得主游凯超(Kaichao You)。

他曾在加州大学伯克利分校 EECS 系担任访问学者,主攻分布式深度学习系统。

作为 vLLM 的关键维护者,他主导了基于张量并行的分布式推理功能实现,并优化了与 PyTorch 原生生态的集成接口,使得 vLLM 能够支持多卡大规模模型推理并降低了开发者的迁移成本。

此外,核心团队与顾问团还集结了学术界与工业界的资深力量。

前 Roblox 高级机器学习工程师 Roger Wang 作为核心成员加入,为团队带来了生产级基础设施的实战经验;

加州大学伯克利分校教授 Joseph Gonzalez 以及 Databricks 联合创始人 Ion Stoica 教授则作为顾问深度参与其中,为公司提供技术愿景与商业路径的顶层指导。

参考链接:

[ 1 ] https://www.bloomberg.com/news/articles/2026-01-22/andreessen-backed-inferact-raises-150-million-in-seed-round

[ 2 ] https://x.com/a16z/status/2014394081452163231

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度「AI 100」产品榜单正式发布!

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品,全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注 点亮星标

科技前沿进展每日见

相关标签