
Mistral AI 是一家总部位于法国的大模型公司。据报道,今年 9 月,英伟达第三次出手投资这家初创企业。经此,Mistral 的估值达到约 135 亿美元,成为欧洲 AI 领域最受瞩目的独角兽之一。

Mistral 3 这次带来了旗舰模型 Mistral Large 3,以及三款高性价比的小模型 Ministral ( 3B、8B、14B ) 。
其中 Mistral Large 3 是绝对的主角,总参数量为 675B,其中活跃参数为 41B,这是自 2023 年底至 2024 年初的 Mixtral 8x7B 和 8x22B 以来,Mistral 首个开放权重的混合专家模型。
但最让我感到「不对劲」的是官方的对比策略。
在官方的跑分图里,Mistral 竟然完全无视了 GPT-5.1 或 Gemini 3,而是直接把枪口对准了中国的 DeepSeek-V3.1 和 Kimi-K2。
Mistral 的逻辑很直接:我的参数量只有 Kimi 的一半左右,但我的性能跟你五五开,甚至更强。
官方晒出的成绩单如下:
赢面: 在 MMMLU 和 AMC 上,Mistral Large 3 分别拿到了 85.5 和 52.0 的高分,略微领先 DeepSeek-V3.1。
输面: 在程序员最关心的 LiveCodeBench 和 SimpleQA 上,Mistral Large 3 还是输给了 Kimi-K2。


虽然 Mistral 试图证明自己是「效率之王」,但在 X 上,科技博主直接泼了一盆冷水,甚至用了「Mistral 正在缓慢死亡 ( slow death ) 」这样严重的词。
他的评价简单粗暴,列出了 Mistral 新模型的三大罪状:
1. 更笨: 脑子不如 DeepSeek 好使。
2. 更贵: 价格却是 DeepSeek 的 3 倍。
3. 更慢: 推理速度甚至比 GPT-5 还慢。

看看排在前面的谁?Gemini 3 Pro(73 分)、Claude Opus 4.5(70 分)、GPT-5.1(70 分)。Mistral 距离第一梯队的差距,已经不是「追赶」,而是断层了。


该模型难以正确执行工具调用,常会输出格式错误或无效的工具调用指令。
在基于图像的基准测试中表现平平。

Ministral 3 是所有开源模型中性价比最高的产品。每种参数规模均提供基础版、指令版和推理版,且均具备图像理解能力,全部基于 Apache 2.0 许可证开源。
这意味着什么?你可以免费商用,随便魔改。
全能: 所有尺寸都支持图像理解,不再是「瞎子」 。
能打: 14B 的推理版在 AIME'25 测试中准确率达到了 85%。

但在 DeepSeek 把大模型价格打下来的今天,仅仅做到「性能不错」已经不够了。用户要的是极致的聪明,或者极致的便宜。
目前的 Mistral ,似乎卡在了一个尴尬的中间位置。能不能成为「欧洲之光」,可能真得看后续的迭代了。