关于ZAKER 合作
全天候科技 12小时前

200 亿 AI 独角兽反击,MiniMax 首款推理模型对标 DeepSeeK,算力成本仅 53 万美元

当 DeepSeek 的推理模型震撼全球 AI 圈时,一家估值 200 亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅 53 万美元的训练成本和颠覆性架构设计,向这个新贵发起正面挑战。

17 日,AI 创业公司MiniMax 发布了其首款推理模型 M1,根据基准评测,M1 性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及 OpenAI、谷歌和 Anthropic 等最新最强的开闭源模型。

这场较量的核心不仅在于性能,更在于效率——与 DeepSeek R1 相比,在生成 64K token 时,M1 消耗的算力不到其 50%;在 100K token 时,仅为其 25%。

MiniMax 称,M1 的整个强化学习过程仅使用 512 块英伟达 H800 GPU 训练三周,租赁成本 53.74 万美元(约合 380 万人民币)。这一成本控制 " 比最初预期少了一个数量级 "。MiniMax 创始人 &CEO 闫俊杰发文表示:" 第一次感觉到大山不是不能翻越。"

MiniMax-M1:混合专家架构与线性注意力机制

MiniMax-M1 采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统 Transformer 架构计算瓶颈的直接挑战。

" 这种设计理论上能够高效地将推理长度扩展到数十万 token。"MiniMax 表示,这还能带来计算成本的大幅下降," 这个特性使我们在训练和推理的时候都有很大的算力效率优势 "。

该模型总参数达 4560 亿,每 token 激活参数 459 亿,支持高达 100 万 Token 的上下文输入——这一数字是 DeepSeek R1 的 8 倍,与谷歌 Gemini 2.5 Pro 并列业内最高。

在 17 个主流评测集的测试中,M1 在软件工程能力测试 SWE-bench 上取得超过 55% 的成绩,虽未达到海外顶尖模型水准,但超过了 DeepSeek-R1 以及阿里和字节的同类产品。在长上下文理解任务中,M1 在三项基准测试上全面超越所有开源模型,仅以微弱差距落后于 Gemini 2.5 Pro,位列全球第二。

成本革命:380 万人民币的强化学习实验

MiniMax 声称,M1 的整个强化学习过程仅使用 512 块英伟达 H800 GPU 训练三周,租赁成本 53.74 万美元(约合 380 万人民币)。这一成本控制 " 比最初预期少了一个数量级 "。

公司还开发了名为 CISPO 的新型强化学习算法,在数学测试基准 AIME 的实验中,该算法比字节近期提出的 DAPO 算法实现了两倍加速,仅需 50% 的训练步骤就能达到相同表现。

与 DeepSeek R1 相比,在生成 64K token 时,M1 消耗的算力不到其 50%;在 100K token 时,仅为其 25%。

区间定价策略!MiniMax 还有更多更新

目前,MiniMax-M1 已经对外开源,并在 MiniMax APP 和 Web 端免费升级。在 API 价格方面,MiniMax 采用了与字节豆包 1.6 相同的 " 区间定价 " 策略。

在 0-32k 和 32k-128k 输入长度区间,M1 的价格相比 DeepSeek-R1(输入 4 元 / 百万 token,输出 16 元 / 百万 token)更具性价比。对于 128k-1M 的最长输入区间,DeepSeek 模型甚至不支持此长度。

这一定价策略使 M1 成为继豆包之后的又一 " 价格杀手 ",开发者评价其为 " 性价比新王 "。

"AI 六小龙 " 的生存博弈

作为腾讯和阿里巴巴支持的 "AI 六小龙 " 成员之一,MiniMax 仍在坚持基础研究。MiniMax 创始人兼 CEO 闫俊杰发文表示:" 第一次感觉到大山不是不能翻越。"

据搜狐科技报道,M1 仅是该公司为期 5 天发布周的首个产品,后续还将发布智能体应用,并在视频、音乐等模型层面带来更多更新。

MiniMax 认为,M1 的高效架构将在未来智能体应用中具有独特优势。" 未来智能体需要数十到数百个回合进行推理,同时整合来自不同来源的长上下文信息," 该公司表示。目前,MiniMax 正在海外内测智能体应用,主打代码、多模态等能力。

相关标签

最新评论

没有更多评论了
全天候科技

全天候科技

提供专业快速完整的科技商业资讯

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容