Claude “神话”模型登场！自主科研成果超《科学》论文水平，token 在燃烧

智东西

作者 | 陈骏达

编辑 | 李水青

Claude 的 " 神话 " 级模型，终于上线了！

智东西 6 月 10 日报道，今天，Claude 正式发布新一代旗舰模型 Claude Fable（寓言） 5，以及面向特定机构开放的 Claude Mythos（神话） 5。这两款模型同属 Mythos（神话）级，共享同一个底层模型，能力高于 Opus 级。Mythos 级是 Anthropic 迄今为止能力最强、综合性能最高的大模型级别。

Anthropic 在技术博客中称，面向公众开放的 Fable 5 在几乎所有 AI 能力基准测试中处于顶尖水平，能胜任软件工程、知识工作、视觉理解、科学研究等多个领域的复杂任务。同时，任务越长、越复杂，Fable 5 的优势就越大。与 Opus 4.8、GPT 5.5 和 Gemini 3.1 Pro 相比，Fable 5/Mythos 5 称得上是断层领先。

Fable 5/Mythos 5 基准测试成绩（图源：Anthropic）

Anthropic 的官方案例显示，" 动手 " 设计 3D 打印模型、玩复杂的策略游戏，打造太阳系、流体力学模拟，这些任务对于 Fable 5/Mythos 5 来说都不在话下。

Fable 5 实测案例（图源：Anthropic）

Mythos 5 与 Fable 5 的主要差别在于安全措施。Fable 5 在处理生物学、网络安全和前沿科研场景的部分敏感请求时，将自动降级到 Opus 4.8 响应。

而被定位为 " 全球最强网络安全模型 " 的 Mythos 5 则在某些领域移除了安全防护措施。这款模型目前率先通过 Anthropic 与美国政府合作的 Project Glasswing 项目对外开放，未来打算通过更广泛的受信任访问计划扩展访问权限。

价格方面，Fable 5 和 Mythos 5 的价格分别为每百万输入 token 10 美元（约合人民币 67.7 元）和每百万输出 token 50 美元（约合人民币 338.6 元），大概是 Mythos Preview 的一半。即便如此，这两款模型烧起 token 来还是十分惊人的。

有用户反馈，在 200 美元 / 月的 Claude Max 套餐中，Fable 5 仅用 1 分钟消耗了约 14% 的 5 小时使用配额，并消耗约 2% 的周配额。换算下来，大概 1 分钟 1 美元。

网友吐槽 Fable 5 使用成本（图源：X 平台）

Fable 5 模型现已全面上线。即日起至 6 月 22 日，Pro、Max、Team 和按座收费的企业版用户可免费使用。6 月 23 日起，Fable 5 将从这些套餐中移除，之后需消耗积分才能使用。Anthropic 官方称，待容量充足后，他们会尽快将其恢复为订阅计划的标配功能，并可能视情况延长免费期。

Anthropic 对新模型的命名也值得关注。Fable 和 Mythos 沿用了此前的文学体裁命名方式，相较此前采用的 Haiku（俳句）、Sonnet（十四行诗）、Opus（巨著），这些名字的更为宏大。这种变化或许反映出其产品定位的调整，Claude 未来承担所承担任务的复杂度和规模，或将进一步提升。

一、2 个月开发工作几天干完，还能靠记笔记自我优化

Anthropic 在其博客中格外强调了新模型的长期自主工作能力。他们称："Fable 5 和 Mythos 5 可以比任何之前的 Claude 模型更长时间地自主运行。"

这种能力让这代 Claude 模型可以完成更为复杂的任务。

在软件工程领域，参与早期测试的金融科技公司 Stripe 称，Fable 5 将数月的工程工作压缩到了几天内。在一个 5000 万行的 Ruby 代码库中，该模型在一天内完成了全代码库的迁移，而原本这一工作需要整个团队人工操作 2 个月才能完成。

与过去的 Claude 模型相比，Fable 5 的 token 效率也更高：在编程基准测试 FrontierCode 中，Fable 5 仅用中等思考强度，就超过了前沿模型。

Fable 5 在 FrontierCode 上的表现（图源：Anthropic）

有不少网友已经在编程任务中验证了 Fable 5 的能力。有位网友晒出了自己用 Fable 5 打造的《我的世界》，这一游戏的完成度已经很高了，有完整的建造和背包系统，游戏渲染没有 bug，甚至还添加了音效和背景音乐。完成这样一个任务，Fable 5 大概烧掉了 30 美元。

另一位网友对比了 Fable 5 和 Opus 4.8 的能力差异。在所有任务中，都能明显感觉到 Fable 5 明显强于 Opus 4.8。比如，在近地物体监控网页上，Fable 5 的设计明显更具美感，抓取的信息丰富度也更高。

Fable 5 和 Opus 4.8 打造的近地物体监测器（图源：X 平台）

在世界杯球衣销售监测网页任务中，Fable 5 的结果运行正常，但 Opus 4.8 打造的网页出现了明显的视觉 bug。

Fable 5 和 Opus 4.8 打造的世界杯球衣销售监测网页（图源：X 平台）

在知识型工作方面，Fable 5 在企业级 AI 知识管理创企 Hebbia 的金融基准测试中，Fable 5 获得了所有模型中最高的分数，并在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。

全球头部的自营交易公司和做市商 IMC 也认为，Fable 5 几乎全面超越了 IMC 的交易分析评估，包括事实查询、概念推理、根本原因分析和预期价值分析。

同时，Fable 5 也是一款视觉模型。这意味着它可以看懂复杂的科学图表、仅靠一张截图复刻应用源代码。

在执行视觉任务时，Fable 5 所需要的辅助工具也变少了。在仅使用最小化、纯视觉的 Harness 时，Fable 5 就已经能够通关《宝可梦火红》（Pokémon FireRed），而此前的 Claude 模型需要更复杂的辅助工具才能玩这一游戏。

Fable 5 的记忆和长上下文能力也是一大亮点，它可以在长时间运行的任务中能够持续保持专注，并利用其自身笔记改进输出。

二、Mythos 5 自主做科研一周，成果超越《科学》期刊论文

如果说 Fable 5 更适用于通用场景，那么 Mythos 5 则是 Anthropic 为前沿研究打造的强力工具。

在药物设计中，蛋白质设计专家借助 Mythos 5 将部分环节的效率提升至约 10 倍。

在一个案例中，仅配备蛋白质设计和生物信息学工具、完全没有人类协助的 Mythos 5，表现达到甚至超过了熟练的人类操作者。Mythos 5 自主完成了科学家通常需要亲自执行的全部任务：选择结合位点、选用并运行蛋白质设计工具、在过程中遭遇失败时自行纠错和恢复。

Mythos 5 设计的蛋白质结构（图源：Anthropic）

研究所涉的 14 个蛋白质靶点中，有 9 个产生了强候选分子，目前已进入后续研究阶段。这些设计覆盖免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。

在分子生物学领域，Mythos 5 是首个能够持续提出新颖且有说服力的科学假设的模型。在与 Opus 级模型进行双盲对比评测时，科学家对 Mythos 所提假设的偏好率约为 80%，已有多项假设进入实验验证环节。

其中一项关于大肠杆菌某一蛋白质新机制的假设，得到了一个独立研究团队近期发表成果的验证。

在基因组学方面，Mythos 5 自主开展了为期 1 周多的原创性研究。它汇集了横跨 138 个动物物种的数百万个单细胞数据，自行设计并训练了一个定制的机器学习模型，用于识别在亲缘关系甚远的物种中执行相同功能的细胞。

在经验丰富的人类研究者指导下，Mythos 5 训练出的模型超越了近期发表在《科学》期刊上的一个模型，而前者的参数量仅为后者的百分之一。团队计划在未来数月内发表这些成果。

三、采用新型安全分类器，网安、生物学和蒸馏任务或被 " 降智 "

模型能力的大幅度提升，让 Anthropic 开始重新构建模型的安全体系。在面向公众开放的 Fable 5 中，Anthropic 打造了安全分类器，三类请求会被路由到 Opus 4.8。Anthropic 的数据显示，大约 5% 的请求会被降级到 Opus 4.8 进行处理。

在网络安全类任务中，Mythos 级模型擅长发现和利用软件漏洞。因此，它们可以大大简化网络攻击，降低实施成本。为了防止这些黑客技能被应用于网络攻击，Anthropic 设计了网络安全分类器，应用于 Fable 5。

Anthropic 对这一分类器进行了大量测试，在 1000 小时的测试中，暂时没有团队找到通用的越狱方法。不过，Anthropic 也承认，完全防止越狱是基本不可能的，他们的目标是让越狱足够缓慢且昂贵，让 Anthropic 能在大规模使用前监测到这些行为，并及时阻止。

在生物学和化学任务中，Anthropic 此前已经会阻止生化武器相关的任务，但随着模型能力提升，Anthropic 发现一些通用类的生物学和化学研究也有可能被用于危险用途。因此，目前 Fable 5 在这些领域的大部分请求都会被路由到 Opus 4.8 上。

Anthropic 还对所谓 " 蒸馏 " 行为进行了限制，当用户的请求被标记为蒸馏行为时，也会被路由到 Opus 4.8 进行处理。

最后，Anthropic 还要求企业客户将 Mythos 级型号的数据保存 30 天，这些数据不会被用于训练模型，但是会被用于防范网络安全攻击和减少误报。

结语：干活的能力上去了，商业模式也在重构

头部 AI 企业正把竞争重点，转向真实任务的闭环交付能力。通读 Anthropic 的 Fable 5/Mythos 5 博客，可以感受到性能指标与榜单成绩的占比似乎没有那么多了，Anthropic 更希望强调，这一模型能独立把活干完、干对的能力。

同时，在这一代 Claude 模型上，我们也看到了算力成本与订阅模式之间张力的进一步加剧。顶级模型烧 token 的速度远超当前订阅制的承载能力，按量计费、混合计费模式乃至按结果计费的新模式可能会加速普及。这些新型商业化模式的探索也值得关注。

智东西

作者 | 陈骏达

编辑 | 李水青

Claude 的 " 神话 " 级模型，终于上线了！

Fable 5/Mythos 5 基准测试成绩（图源：Anthropic）

Anthropic 的官方案例显示，" 动手 " 设计 3D 打印模型、玩复杂的策略游戏，打造太阳系、流体力学模拟，这些任务对于 Fable 5/Mythos 5 来说都不在话下。

Fable 5 实测案例（图源：Anthropic）

Mythos 5 与 Fable 5 的主要差别在于安全措施。Fable 5 在处理生物学、网络安全和前沿科研场景的部分敏感请求时，将自动降级到 Opus 4.8 响应。

网友吐槽 Fable 5 使用成本（图源：X 平台）

一、2 个月开发工作几天干完，还能靠记笔记自我优化

Anthropic 在其博客中格外强调了新模型的长期自主工作能力。他们称："Fable 5 和 Mythos 5 可以比任何之前的 Claude 模型更长时间地自主运行。"

这种能力让这代 Claude 模型可以完成更为复杂的任务。

与过去的 Claude 模型相比，Fable 5 的 token 效率也更高：在编程基准测试 FrontierCode 中，Fable 5 仅用中等思考强度，就超过了前沿模型。

Fable 5 在 FrontierCode 上的表现（图源：Anthropic）

Fable 5 和 Opus 4.8 打造的近地物体监测器（图源：X 平台）

在世界杯球衣销售监测网页任务中，Fable 5 的结果运行正常，但 Opus 4.8 打造的网页出现了明显的视觉 bug。

Fable 5 和 Opus 4.8 打造的世界杯球衣销售监测网页（图源：X 平台）

全球头部的自营交易公司和做市商 IMC 也认为，Fable 5 几乎全面超越了 IMC 的交易分析评估，包括事实查询、概念推理、根本原因分析和预期价值分析。

同时，Fable 5 也是一款视觉模型。这意味着它可以看懂复杂的科学图表、仅靠一张截图复刻应用源代码。

Fable 5 的记忆和长上下文能力也是一大亮点，它可以在长时间运行的任务中能够持续保持专注，并利用其自身笔记改进输出。

二、Mythos 5 自主做科研一周，成果超越《科学》期刊论文

如果说 Fable 5 更适用于通用场景，那么 Mythos 5 则是 Anthropic 为前沿研究打造的强力工具。

在药物设计中，蛋白质设计专家借助 Mythos 5 将部分环节的效率提升至约 10 倍。

Mythos 5 设计的蛋白质结构（图源：Anthropic）

其中一项关于大肠杆菌某一蛋白质新机制的假设，得到了一个独立研究团队近期发表成果的验证。

三、采用新型安全分类器，网安、生物学和蒸馏任务或被 " 降智 "

Anthropic 还对所谓 " 蒸馏 " 行为进行了限制，当用户的请求被标记为蒸馏行为时，也会被路由到 Opus 4.8 进行处理。

最后，Anthropic 还要求企业客户将 Mythos 级型号的数据保存 30 天，这些数据不会被用于训练模型，但是会被用于防范网络安全攻击和减少误报。

结语：干活的能力上去了，商业模式也在重构

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Claude “神话”模型登场！自主科研成果超《科学》论文水平，token 在燃烧

宙世代

一起剪

相关阅读

鸿蒙6杀入大众产品线，手机行业的「参数内卷」该到头了

最新评论

智东西

热门推荐