关于ZAKER 合作
虎嗅APP 10小时前

MiniMax 不甘心

本文来自微信公众号:字母榜,作者:赵晋杰,编辑:王靖,原文标题:《闫俊杰不甘心》,题图来自:AI 生成

从 AI 六小龙缩减为 AI 四小强后,四家明星大模型创业公司终于都要上线自己的推理模型了。

在智谱 AI、月之暗面和阶跃星辰相继上线自研推理模型后,近期虎嗅爆料 MiniMax 筹备半年多的文本推理模型也即将发布。

有接近 MiniMax 的知情人士向字母榜确认了上述爆料的真实性。

字母榜曾在《无人再谈 AI 六小龙》一文中率先指出,原本被冠以六小龙称号的队伍中,因为有人明显掉队(零一万物明确放弃追逐 AGI,百川智能专注医疗垂类赛道),剩下的四家(智谱 AI、MiniMax、月之暗面和阶跃星辰),也失去了如一条过江龙般,足以挑战乃至对抗大厂的资本和技术底气。曾经的 AI 六小龙,已经在新一轮大模型竞赛中滑落成了新的 "AI 四小强 "。

曾几何时,四小强中的 MiniMax 一度引领行业之先。2023 年下半年,大部分国内大模型厂商还在继续迭代稠密模型(dense model)之际,MiniMax 创始人兼 CEO 闫俊杰就把 80% 以上的研发和算力资源投到了一件不确定的事情上—— MoE(Mixture of Experts 混合专家模型)。

2024 年 1 月,MiniMax 上线的 abab6,成为国内首个 MoE 大模型。此后,MoE 架构彻底取代稠密架构,成了大模型领域技术迭代的新方向,年初爆火出圈的 DeepSeek,应用的也是 MoE。

但在 DeepSeek R1 掀起的新一轮推理模型浪潮中,MiniMax 却成了那个后来者。当腾讯等玩家纷纷靠接入 DeepSeek 赚取用户关注之际,不甘心的 MiniMax 选择了一种折中方案:国内 C 端应用上坚持不接入 DeepSeek,只在海外的 AI 应用上选择接入 DeepSeek。

MiniMax 的此番操作,不免让人联想到字节,后者同样选择不在国内主力 C 端应用豆包上接入 DeepSeek,而是坚持等到后续自研推理模型的上线,才补上了深度思考的能力短板。

如今,闫俊杰也等来了一个如字节一般的机会,即尝试通过借助自家推理模型的上线,来重新证明 MiniMax 的技术底色。

缺失推理模型的影响,正从多个方面左右着大模型玩家的发展状态。

首当其冲的便是外界对其高估值和后续融资是否可持续的质疑。

2024 年 3 月,MiniMax 拿下 6 亿美元 A 轮融资后,投后估值来到 25 亿美元,这是 MiniMax 最后一次公开披露的投融资和估值信息。

2025 年年初,外界有传闻 MiniMax 估值已经超过 30 亿美元,不过,据字母榜从接近 MiniMax 知情人士处获悉的消息,当前 MiniMax 估值已经超过 40 亿美元,仍然是当前四小强中估值最高的一家,"(MiniMax)全栈技术价值更高一些。" 恒业资本管理合伙人江一如此评价道。

但迟迟未上推理模型,资本市场也开始重估 MiniMax 的估值体系。

比上线推理模型更难的是,不仅要有,作为后来者,还要做到比 R1 更好才行,"Kimi 就是一个例子,尽管跟 R1 同时期上线了 K1.5 推理模型,但效果对比上显然败给了 R1。" 人工智能专家林峰博士说。

这也成了拖住 MiniMax 自家推理模型未能更早上线的因素之一。在 MiniMax 前员工李俊(化名)回忆中,去年中公司就开启了推理模型的研发工作。MiniMax 高级研究总监钟怡然更是曾对外剧透,公司有望在 4 月到 5 月间,推出深度推理模型。

但现实的情况是,在技术迭代优化过程中,MiniMax 食言了。按照当前进度来看,乐观情况下,MiniMax 自研推理模型也要到 6 月中旬左右上线了。

因缺失推理模型所带来的深度思考能力短板,还使得 MiniMax 在应用侧难以吸引并聚拢起更多用户,考虑到国内应用还坚持不接入 DeepSeek,这一难题无疑被进一步放大。

对比腾讯元宝,靠着率先接入 DeepSeek 的举动,其月活用户一跃从去年 AI 原生 APP 阵营中的 others,变成了当前的行业 TOP3(仅次于 DeepSeek 和豆包)。

B 端的影响也在逐步显现。因为无法提供推理模型选项,公司可能会被迫将更多模型调用需求推向对手。

因模型能力短板或性价比因素而转投新阵营的事例比比皆是。去年 5 月 DeepSeek 掀起价格战后,作为第一家在旗舰模型上跟进降价的玩家,字节就曾靠着性价比优势,从 MiniMax 手中分润走了一部分 AI 儿童玩具公司 Haivivi 的语音模型调用需求。

拖累 MiniMax 推理模型更早上线的原因,一部分要归因于闫俊杰更大的赌性。

当 DeepSeek、Kimi 们着手研发推理模型之际,MiniMax 则将重心放在了架构创新上。" 相同的算力和资源的情况下,内部没有太多人力去做深度推理的,这导致我们跟随深度推理的脚步慢一点。"MiniMax 高级研究总监钟怡然曾对外如此解释。

早于 DeepSeek R1 发布近一周,1 月 15 日,MiniMax 发布了 MiniMax-01 并正式开源,在新模型中首次尝试使用线性注意力架构 Linear Attention。

官方介绍,MiniMax-01 是首次在 4000 亿以上参数的大模型中,使用了线性注意力机制新架构(ChatGPT 采用的标准 Transformer 是非线性注意力机制),能高效处理全球最长的 400 万 token 上下文。

就像当年冒险赌注 MoE 一样,闫俊杰将筹码再次押在了 Linear Attention 上。

2024 年 4 月,MiniMax 成为第一批钻研 Linear Attention 的 AI 公司。随着 MiniMax-01 发布,公司内部也开始迎来新架构的更换,即从此前 abab 系列模型采用的 Transformer 架构,逐步更换为 MiniMax-01 模型采用的线性架构,后续视频、音乐等多模态模型更新,都将基于全新架构。

这也是 MiniMax 内部没有选择立马跟进 OpenAI o1 的原因之一。" 我们认为单纯强调推理能力,可能仅会在某些特定方面增强模型性能。" 钟怡然解释说。

然而,R1 的发布,给了 MiniMax 一个措手不及," 我们发现融入这些推理能力,模型的外推能力显著提升,泛化能力更好。" 为了追赶行业新态势,钟怡然所在的模型研发团队,整个春节期间都在赶工,以图加快推理模型上线。" 内部给出的目标是,要做出比 R1 更好、甚至要达到 o1 或 o3 相近水准的推理模型,且实现多模态推理能力。"

不甘心的闫俊杰决定再次冒险:试图赶在 DeepSeek 前面,推出一个原生多模态深度推理模型,既能实现文本推理能力,又具备视觉理解能力。

但在虎嗅爆料中,MiniMax 即将发布的推理模型则只具备文本理解能力。后续是否会加入视觉理解,还是分阶段逐步推出,目前仍留有悬念。

除了因冒险押注新架构带来的资源分散之外,在应用上的豪赌布局,也分散了 MiniMax 追求模型迭代的精力。

AI 六小龙中,MiniMax 布局几乎最广:既做 To C,又做 to B;既做国内,又做海外。庞大的业务策略,带来的代价之一便是产品和模型团队之间的 " 打架 "。

MiniMax 前员工李俊告诉字母榜,2024 年,公司将收入和产品日活视为两大重要指标,甚至会出现这月追求收入,下月强调用户增长的频繁变动情况。

从 2023 年开始,围绕娱乐和生产力工具赛道,MiniMax 一个都不打算放过:Talkie、星野、海螺 AI 相继问世,堪比 AI 圈的新 APP 工厂。

为了打造产品,闫俊杰还特意挖来前今日头条用户产品负责人张前川,给其赋予了公司合伙人的身份。

但豪赌一年后,闫俊杰为公司设立的 2024 年收入过亿美元和产品日活过千万两大目标,均未能实现。这也成为公司后续人员变动和组织架构调整的新导火索。

今年 3 月份,MiniMax 负责商业化的合伙人兼副总裁魏伟离职,更早之前,从去年 9 月份开始,MiniMax 产品负责人张前川,便淡出公司事务,改任产品顾问一职。

两大合伙人相继变动之下,MiniMax 在应用侧也改变了策略:旗下 AI 应用 " 海螺 AI" 一分为二,拆分为一个主打 AI 助手的 "MiniMax",和侧重视频创作的 " 海螺 AI"。

几次豪赌过后,闫俊杰吸取到的最大教训之一是,对技术品牌没有很深的认知。在 2023 年初认识梁文锋后,后者有两件事对闫俊杰一直带来启发:一是 DeepSeek 品牌做得非常好;另一个是 DeepSeek 一开始没有产品,所以更聚焦。

DeepSeek 爆火并在短短时间内成为国内月活第一 AI 原生 APP 后,闫俊杰纠正了自己过去两年来的一个误区:即认为用户越多,模型能力提升越快。实际则是 " 更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。"

基于这一新的判断,闫俊杰重新做了取舍,不再将用户规模和商业化视作重点,而是重新将技术迭代确立为 MiniMax 的最重要目标。

但新的挑战接踵而至。

当下大模型赛道正进入淘汰赛,资金持续承压已成为行业现实。恒业资本管理合伙人江一爆料称,魏伟的离职原因之一,是因为融资 KPI 考核未达标。

但被融资困住的不只有 MiniMax。" 本质上是市梦率的时代在短短两年内已经结束。现在面临的是融资放缓 + 收入压力 + 战略调整的新阶段。" 在江一看来,外界对大模型公司的考核标准,正从交付 MaaS 变成交付结果,竞争焦点也从过去比参数大小、多模态能力,偏向现在比谁能真正解决用户问题。

" 最后市场状态,基础模型市场上正常情况下应该不超过三家。" 怎么能确保继续留在这场大模型牌桌之上,持续获取融资的能力便成了决定胜负的关键手。

毕竟,无论是更新迭代模型能力,还是打造能够解决用户真实需求的 Agent,无一例外都需要人才和算力资源的支撑,这些要素都得靠源源不断的金钱来维系运转。

稍有松懈,这些大模型厂商就可能面临被迫落后的局面:要么核心研发人员出走创业,要么在重要技术迭代方向上慢人一步。

即便解决好内部人才和资源问题,但随着 DeepSeek 重新激起大厂的 AI 热情,如 MiniMax 一般的初创公司,该如何在竞争中继续做出自己的技术亮点并保持领先地位,正变得越来越难。

MiniMax 当前正寄望于用新的原生多模态推理模型重回舞台中央,但在这一领域,字节、阿里,腾讯,提前一步已经在文本推理模型之外,上线了图像推理模型:3 月份,阿里通义千问团队推出 QVQ-Max 视觉推理模型;4 月份,豆包深度思考模型专门打造了视觉版,具备视觉推理能力;5 月份,腾讯混元 T1-Vision 上线元宝,可深度理解图片内容。

更大的竞争还在后面。延期后的 MiniMax 推理模型,即将直面 DeepSeek R2 和 GPT-5 的竞争,后两者都有望在今年下半年上线。

近期在墨西哥举办的 AI Summit 上,OpenAI 代表确认正在开发下一代基础模型 GPT-5,并有望年内上线。

DeepSeek R2 的推出步伐也越来越近。按照 DeepSeek 以往内部模型每 7 个月一更新的节奏,新一代 V4 模型有望在今年 7 月份亮相。如果梁文锋希望在 V4 版本上训练 R2,以 R1 与 V3 相隔 1 个月的推出时间差评估,R2 最快便有望在 8 月份上线。

对于想要继续留在牌桌上的闫俊杰而言,这场 AI 大模型的竞争还远没到尽头。

参考资料:

《MiniMax 正暗戳戳憋大招》虎嗅

《奥特曼逼梁文锋出大招》直面 AI

《晚点对话 MiniMax 闫俊杰:创业没有天选之子》晚点对话

《3700 次预训练寻找 " 线性注意力 " 非共识,MiniMax-01 开发者讲述 4 年探索》晚点 LatePost

《MiniMax-01 开源:新架构开启 Agent 时代》MiniMax 稀宇科技

《MiniMax:7000 万美金营收下的甜蜜和隐忧》智能涌现

《MiniMax 大模型每日与世界的 30 亿次交互》MiniMax 稀宇科技

本文来自微信公众号:字母榜,作者:赵晋杰,编辑:王靖

相关标签

相关阅读

最新评论

没有更多评论了
虎嗅APP

虎嗅APP

有视角的商业资讯与交流平台

订阅

觉得文章不错,微信扫描分享好友

扫码分享