APP下载

关于ZAKER

合作

蓝鲸财经 01-15

继 DeepSeek 后，MiniMax 也发布了挑战传统 Transformer 架构的国产开源模型

图片来源：视觉中国

蓝鲸新闻 1 月 15 日讯（记者朱俊熹）国产开源大模型再添一员强将。1 月 15 日，大模型独角兽 MiniMax 发布并开源了 MiniMax-01 全新系列模型，包含基础语言大模型和视觉多模态大模型两个模型。

据 MiniMax 介绍，其基础语言大模型 MiniMax-Text-01 在多数任务上，追平了 GPT-4o、Claude 3.5 Sonnet 这两个海外公认最先进的闭源模型。在评估模型指令遵循能力的 IFEval 和 C-SimpleQA 中文评测集中，该基础语言大模型的得分也超过了另一国产开源模型 DeepSeek-V3。

与 DeepSeek 模型类似，MiniMax 的新系列模型也对传统的 Transformer 架构进行了创新。MiniMax 称，在模型中首次大规模实现了线性注意力机制，每 8 层中有 7 个是基于 Lightning Attention 的线性注意力，有一层是传统的 SoftMax 注意力。

通俗来讲，如果比喻成要在一群人中找到最重要的那个，传统注意力需要每个人跟其他人都单独聊一遍，逐一比较所有人的重要性。而线性注意力只用查看每个人手中的名片，快速统计出哪些人持有的信息是最重要的。因此，传统注意力机制精准但计算繁重，适合短输入或复杂任务，而线性注意力以其高效更适合超长输入、需要快速处理的任务。

MiniMax 在技术报告中提到，正在研究更高效的模型架构，希望能够完全去除 SoftMax 注意机制，从而实现无限长的上下文窗口，而不会增加计算开销。

幻方量化旗下 AI 公司 DeepSeek 在 12 月底发布了 V3 开源模型，采用的是创新的多头潜在注意力机制（MLA）和 DeepSeekMoE 混合专家架构。在节省内存占用和计算资源的同时，确保资源被高效利用。DeepSeek-V3 以极低的训练成本实现了对齐领军闭源模型的性能，引发国内外科技社区热议。不仅被前 OpenAI 联创 Andrej Karpathy 赞为 " 在资源受限的情况下对研究和工程的一次令人印象深刻的展示 "，也被 OpenAI 列作中国 AI 技术快速发展的范例。

围绕线性注意力机制，MiniMax 对模型的训练和推理系统进行了重构。其模型包含 4560 亿个参数，单次推理激活 459 亿个。能够高效处理最长 400 万 token 的上下文，是 GPT-4o 的 32 倍，Claude 3.5 Sonnet 的 20 倍。在长上下文的测评集上，MiniMax-Text-01 的表现显著领先于其他开闭源模型。

图片来源：MiniMax 官网

MiniMax 表示，01 系列模型将能够支持未来一年内智能体应用的大幅增长需求，因为智能体系统越来越需要更长的上下文处理能力和持续的记忆。" 我们相信 2025 年会是 Agent（智能体）高速发展的一年。" 该公司称，" 在这个模型中，我们走出了第一步，并希望使用这个架构持续建立复杂 Agent 所需的基础能力。"

智能体正成为国内外 AI 公司竞相押注的赛道。OpenAI CEO Sam Altman 本月初发文称，到 2025 年，将可能看到第一批 AI 智能体 " 加入劳动力队伍 "，并实质性地改变公司的产出。谷歌在推出新一代 Gemini 2.0 大模型时也表示，这是为智能体时代构建的。该模型主打支持多模态输入和输出，以构建出更接近通用助手愿景的智能体。

MiniMax 在阐述为何选择将模型开源时提到，一是认为这有可能启发更多长上下文的研究和应用，从而更快促进智能体时代的到来。二是通过开源促使其努力做更多创新，更高质量地开展后续的模型研发工作。

MiniMax 成立于 2021 年 12 月，被普遍称为国内 " 大模型六小龙 " 之一。旗下拥有 AI 陪伴应用星野，以及集成了对话、视频、音乐功能的海螺 AI 等代表性产品，在海外市场积累了一定热度。其最新披露的一轮融资还是在去年 3 月，由阿里领投的 6 亿美元 B 轮融资，公司估值达 25 亿美元。此前腾讯、米哈游、高瓴创投等机构也参投了 MiniMax。

六小龙中，各公司的大模型开源进度不一。其中，百川智能、智谱 AI、零一万物开源了多款模型，涵盖大语言模型、多模态模型等。而月之暗面、阶跃星辰仅开源了部分技术，例如月之暗面联合清华大学等机构开源的大模型推理架构 Mooncake，以及阶跃星辰专注提升光学字符识别（OCR）技术的 GOT-OCR2.0 模型。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

继 DeepSeek 后，MiniMax 也发布了挑战传统 Transformer 架构的国产开源模型

宙世代

一起剪

相关阅读

中国小公司拯救纳斯达克

军民融合+机器人+商业航天+碳纤维+低空经济+华为！公司军工科技板块产品主要应用于航空、航天等方向

证监会新规助力上市公司并购重组

币圈富豪频遭绑架 风险已至“链下”

“城市合伙人”十周年：中交城投集中签约沪穗杭一批重大项目，总投资约300亿元

突发！380亿芯片概念股遭大基金减持不超2.5%股份

“倾听您的心声，服务您的需求” ——中国人保寿险启动2025年客户节活动

进出口银行原董事长胡晓炼：国际贸易、投资体系格局变化，有三点值得重视

95%市场被大厂瓜分！手机小厂集体消亡，真相太残酷了

生物技术领域前沿的方向之一，基因编辑有何价值？

市值突破900亿港元，陕西首富赚麻了

突发跳水，超10万人爆仓！币圈富豪遭绑架，全球已发生多起

投顾周刊：银行理财规模大幅增长，4月末达23.58万亿元

机构大佬集体加仓中国资产！

首届菁英留学节—广东中行全新发布 “留”在中银留学服务生态圈

最新评论

蓝鲸财经

热门推荐

币圈富豪频遭绑架风险已至“链下”