
作者 | 陈骏达
编辑 | 李水青
Claude 的 " 神话 " 级模型,终于上线了!
智东西 6 月 10 日报道,今天,Claude 正式发布新一代旗舰模型 Claude Fable(寓言) 5,以及面向特定机构开放的 Claude Mythos(神话) 5。这两款模型同属 Mythos(神话)级,共享同一个底层模型,能力高于 Opus 级。Mythos 级是 Anthropic 迄今为止能力最强、综合性能最高的大模型级别。
Anthropic 在技术博客中称,面向公众开放的 Fable 5 在几乎所有 AI 能力基准测试中处于顶尖水平,能胜任软件工程、知识工作、视觉理解、科学研究等多个领域的复杂任务。同时,任务越长、越复杂,Fable 5 的优势就越大。与 Opus 4.8、GPT 5.5 和 Gemini 3.1 Pro 相比,Fable 5/Mythos 5 称得上是断层领先。

Anthropic 的官方案例显示," 动手 " 设计 3D 打印模型、玩复杂的策略游戏,打造太阳系、流体力学模拟,这些任务对于 Fable 5/Mythos 5 来说都不在话下。

Mythos 5 与 Fable 5 的主要差别在于安全措施。Fable 5 在处理生物学、网络安全和前沿科研场景的部分敏感请求时,将自动降级到 Opus 4.8 响应。
而被定位为 " 全球最强网络安全模型 " 的 Mythos 5 则在某些领域移除了安全防护措施。这款模型目前率先通过 Anthropic 与美国政府合作的 Project Glasswing 项目对外开放,未来打算通过更广泛的受信任访问计划扩展访问权限。
价格方面,Fable 5 和 Mythos 5 的价格分别为每百万输入 token 10 美元(约合人民币 67.7 元)和每百万输出 token 50 美元(约合人民币 338.6 元),大概是 Mythos Preview 的一半。即便如此,这两款模型烧起 token 来还是十分惊人的。
有用户反馈,在 200 美元 / 月的 Claude Max 套餐中,Fable 5 仅用 1 分钟消耗了约 14% 的 5 小时使用配额,并消耗约 2% 的周配额。换算下来,大概 1 分钟 1 美元。

Fable 5 模型现已全面上线。即日起至 6 月 22 日,Pro、Max、Team 和按座收费的企业版用户可免费使用。6 月 23 日起,Fable 5 将从这些套餐中移除,之后需消耗积分才能使用。Anthropic 官方称,待容量充足后,他们会尽快将其恢复为订阅计划的标配功能,并可能视情况延长免费期。
Anthropic 对新模型的命名也值得关注。Fable 和 Mythos 沿用了此前的文学体裁命名方式,相较此前采用的 Haiku(俳句)、Sonnet(十四行诗)、Opus(巨著),这些名字的更为宏大。这种变化或许反映出其产品定位的调整,Claude 未来承担所承担任务的复杂度和规模,或将进一步提升。
一、2 个月开发工作几天干完,还能靠记笔记自我优化
Anthropic 在其博客中格外强调了新模型的长期自主工作能力。他们称:"Fable 5 和 Mythos 5 可以比任何之前的 Claude 模型更长时间地自主运行。"
这种能力让这代 Claude 模型可以完成更为复杂的任务。
在软件工程领域,参与早期测试的金融科技公司 Stripe 称,Fable 5 将数月的工程工作压缩到了几天内。在一个 5000 万行的 Ruby 代码库中,该模型在一天内完成了全代码库的迁移,而原本这一工作需要整个团队人工操作 2 个月才能完成。
与过去的 Claude 模型相比,Fable 5 的 token 效率也更高:在编程基准测试 FrontierCode 中,Fable 5 仅用中等思考强度,就超过了前沿模型。

有不少网友已经在编程任务中验证了 Fable 5 的能力。有位网友晒出了自己用 Fable 5 打造的《我的世界》,这一游戏的完成度已经很高了,有完整的建造和背包系统,游戏渲染没有 bug,甚至还添加了音效和背景音乐。完成这样一个任务,Fable 5 大概烧掉了 30 美元。
另一位网友对比了 Fable 5 和 Opus 4.8 的能力差异。在所有任务中,都能明显感觉到 Fable 5 明显强于 Opus 4.8。比如,在近地物体监控网页上,Fable 5 的设计明显更具美感,抓取的信息丰富度也更高。

在世界杯球衣销售监测网页任务中,Fable 5 的结果运行正常,但 Opus 4.8 打造的网页出现了明显的视觉 bug。

在知识型工作方面,Fable 5 在企业级 AI 知识管理创企 Hebbia 的金融基准测试中,Fable 5 获得了所有模型中最高的分数,并在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。
全球头部的自营交易公司和做市商 IMC 也认为,Fable 5 几乎全面超越了 IMC 的交易分析评估,包括事实查询、概念推理、根本原因分析和预期价值分析。
同时,Fable 5 也是一款视觉模型。这意味着它可以看懂复杂的科学图表、仅靠一张截图复刻应用源代码。
在执行视觉任务时,Fable 5 所需要的辅助工具也变少了。在仅使用最小化、纯视觉的 Harness 时,Fable 5 就已经能够通关《宝可梦 火红》(Pokémon FireRed),而此前的 Claude 模型需要更复杂的辅助工具才能玩这一游戏。
Fable 5 的记忆和长上下文能力也是一大亮点,它可以在长时间运行的任务中能够持续保持专注,并利用其自身笔记改进输出。
二、Mythos 5 自主做科研一周,成果超越《科学》期刊论文
如果说 Fable 5 更适用于通用场景,那么 Mythos 5 则是 Anthropic 为前沿研究打造的强力工具。
在药物设计中,蛋白质设计专家借助 Mythos 5 将部分环节的效率提升至约 10 倍。
在一个案例中,仅配备蛋白质设计和生物信息学工具、完全没有人类协助的 Mythos 5,表现达到甚至超过了熟练的人类操作者。Mythos 5 自主完成了科学家通常需要亲自执行的全部任务:选择结合位点、选用并运行蛋白质设计工具、在过程中遭遇失败时自行纠错和恢复。

研究所涉的 14 个蛋白质靶点中,有 9 个产生了强候选分子,目前已进入后续研究阶段。这些设计覆盖免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。
在分子生物学领域,Mythos 5 是首个能够持续提出新颖且有说服力的科学假设的模型。在与 Opus 级模型进行双盲对比评测时,科学家对 Mythos 所提假设的偏好率约为 80%,已有多项假设进入实验验证环节。
其中一项关于大肠杆菌某一蛋白质新机制的假设,得到了一个独立研究团队近期发表成果的验证。
在基因组学方面,Mythos 5 自主开展了为期 1 周多的原创性研究。它汇集了横跨 138 个动物物种的数百万个单细胞数据,自行设计并训练了一个定制的机器学习模型,用于识别在亲缘关系甚远的物种中执行相同功能的细胞。
在经验丰富的人类研究者指导下,Mythos 5 训练出的模型超越了近期发表在《科学》期刊上的一个模型,而前者的参数量仅为后者的百分之一。团队计划在未来数月内发表这些成果。
三、采用新型安全分类器,网安、生物学和蒸馏任务或被 " 降智 "
模型能力的大幅度提升,让 Anthropic 开始重新构建模型的安全体系。在面向公众开放的 Fable 5 中,Anthropic 打造了安全分类器,三类请求会被路由到 Opus 4.8。Anthropic 的数据显示,大约 5% 的请求会被降级到 Opus 4.8 进行处理。
在网络安全类任务中,Mythos 级模型擅长发现和利用软件漏洞。因此,它们可以大大简化网络攻击,降低实施成本。为了防止这些黑客技能被应用于网络攻击,Anthropic 设计了网络安全分类器,应用于 Fable 5。

在生物学和化学任务中,Anthropic 此前已经会阻止生化武器相关的任务,但随着模型能力提升,Anthropic 发现一些通用类的生物学和化学研究也有可能被用于危险用途。因此,目前 Fable 5 在这些领域的大部分请求都会被路由到 Opus 4.8 上。
Anthropic 还对所谓 " 蒸馏 " 行为进行了限制,当用户的请求被标记为蒸馏行为时,也会被路由到 Opus 4.8 进行处理。
最后,Anthropic 还要求企业客户将 Mythos 级型号的数据保存 30 天,这些数据不会被用于训练模型,但是会被用于防范网络安全攻击和减少误报。
结语:干活的能力上去了,商业模式也在重构
头部 AI 企业正把竞争重点,转向真实任务的闭环交付能力。通读 Anthropic 的 Fable 5/Mythos 5 博客,可以感受到性能指标与榜单成绩的占比似乎没有那么多了,Anthropic 更希望强调,这一模型能独立把活干完、干对的能力。
同时,在这一代 Claude 模型上,我们也看到了算力成本与订阅模式之间张力的进一步加剧。顶级模型烧 token 的速度远超当前订阅制的承载能力,按量计费、混合计费模式乃至按结果计费的新模式可能会加速普及。这些新型商业化模式的探索也值得关注。

作者 | 陈骏达
编辑 | 李水青
Claude 的 " 神话 " 级模型,终于上线了!
智东西 6 月 10 日报道,今天,Claude 正式发布新一代旗舰模型 Claude Fable(寓言) 5,以及面向特定机构开放的 Claude Mythos(神话) 5。这两款模型同属 Mythos(神话)级,共享同一个底层模型,能力高于 Opus 级。Mythos 级是 Anthropic 迄今为止能力最强、综合性能最高的大模型级别。
Anthropic 在技术博客中称,面向公众开放的 Fable 5 在几乎所有 AI 能力基准测试中处于顶尖水平,能胜任软件工程、知识工作、视觉理解、科学研究等多个领域的复杂任务。同时,任务越长、越复杂,Fable 5 的优势就越大。与 Opus 4.8、GPT 5.5 和 Gemini 3.1 Pro 相比,Fable 5/Mythos 5 称得上是断层领先。

Anthropic 的官方案例显示," 动手 " 设计 3D 打印模型、玩复杂的策略游戏,打造太阳系、流体力学模拟,这些任务对于 Fable 5/Mythos 5 来说都不在话下。

Mythos 5 与 Fable 5 的主要差别在于安全措施。Fable 5 在处理生物学、网络安全和前沿科研场景的部分敏感请求时,将自动降级到 Opus 4.8 响应。
而被定位为 " 全球最强网络安全模型 " 的 Mythos 5 则在某些领域移除了安全防护措施。这款模型目前率先通过 Anthropic 与美国政府合作的 Project Glasswing 项目对外开放,未来打算通过更广泛的受信任访问计划扩展访问权限。
价格方面,Fable 5 和 Mythos 5 的价格分别为每百万输入 token 10 美元(约合人民币 67.7 元)和每百万输出 token 50 美元(约合人民币 338.6 元),大概是 Mythos Preview 的一半。即便如此,这两款模型烧起 token 来还是十分惊人的。
有用户反馈,在 200 美元 / 月的 Claude Max 套餐中,Fable 5 仅用 1 分钟消耗了约 14% 的 5 小时使用配额,并消耗约 2% 的周配额。换算下来,大概 1 分钟 1 美元。

Fable 5 模型现已全面上线。即日起至 6 月 22 日,Pro、Max、Team 和按座收费的企业版用户可免费使用。6 月 23 日起,Fable 5 将从这些套餐中移除,之后需消耗积分才能使用。Anthropic 官方称,待容量充足后,他们会尽快将其恢复为订阅计划的标配功能,并可能视情况延长免费期。
Anthropic 对新模型的命名也值得关注。Fable 和 Mythos 沿用了此前的文学体裁命名方式,相较此前采用的 Haiku(俳句)、Sonnet(十四行诗)、Opus(巨著),这些名字的更为宏大。这种变化或许反映出其产品定位的调整,Claude 未来承担所承担任务的复杂度和规模,或将进一步提升。
一、2 个月开发工作几天干完,还能靠记笔记自我优化
Anthropic 在其博客中格外强调了新模型的长期自主工作能力。他们称:"Fable 5 和 Mythos 5 可以比任何之前的 Claude 模型更长时间地自主运行。"
这种能力让这代 Claude 模型可以完成更为复杂的任务。
在软件工程领域,参与早期测试的金融科技公司 Stripe 称,Fable 5 将数月的工程工作压缩到了几天内。在一个 5000 万行的 Ruby 代码库中,该模型在一天内完成了全代码库的迁移,而原本这一工作需要整个团队人工操作 2 个月才能完成。
与过去的 Claude 模型相比,Fable 5 的 token 效率也更高:在编程基准测试 FrontierCode 中,Fable 5 仅用中等思考强度,就超过了前沿模型。

有不少网友已经在编程任务中验证了 Fable 5 的能力。有位网友晒出了自己用 Fable 5 打造的《我的世界》,这一游戏的完成度已经很高了,有完整的建造和背包系统,游戏渲染没有 bug,甚至还添加了音效和背景音乐。完成这样一个任务,Fable 5 大概烧掉了 30 美元。
另一位网友对比了 Fable 5 和 Opus 4.8 的能力差异。在所有任务中,都能明显感觉到 Fable 5 明显强于 Opus 4.8。比如,在近地物体监控网页上,Fable 5 的设计明显更具美感,抓取的信息丰富度也更高。

在世界杯球衣销售监测网页任务中,Fable 5 的结果运行正常,但 Opus 4.8 打造的网页出现了明显的视觉 bug。

在知识型工作方面,Fable 5 在企业级 AI 知识管理创企 Hebbia 的金融基准测试中,Fable 5 获得了所有模型中最高的分数,并在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。
全球头部的自营交易公司和做市商 IMC 也认为,Fable 5 几乎全面超越了 IMC 的交易分析评估,包括事实查询、概念推理、根本原因分析和预期价值分析。
同时,Fable 5 也是一款视觉模型。这意味着它可以看懂复杂的科学图表、仅靠一张截图复刻应用源代码。
在执行视觉任务时,Fable 5 所需要的辅助工具也变少了。在仅使用最小化、纯视觉的 Harness 时,Fable 5 就已经能够通关《宝可梦 火红》(Pokémon FireRed),而此前的 Claude 模型需要更复杂的辅助工具才能玩这一游戏。
Fable 5 的记忆和长上下文能力也是一大亮点,它可以在长时间运行的任务中能够持续保持专注,并利用其自身笔记改进输出。
二、Mythos 5 自主做科研一周,成果超越《科学》期刊论文
如果说 Fable 5 更适用于通用场景,那么 Mythos 5 则是 Anthropic 为前沿研究打造的强力工具。
在药物设计中,蛋白质设计专家借助 Mythos 5 将部分环节的效率提升至约 10 倍。
在一个案例中,仅配备蛋白质设计和生物信息学工具、完全没有人类协助的 Mythos 5,表现达到甚至超过了熟练的人类操作者。Mythos 5 自主完成了科学家通常需要亲自执行的全部任务:选择结合位点、选用并运行蛋白质设计工具、在过程中遭遇失败时自行纠错和恢复。

研究所涉的 14 个蛋白质靶点中,有 9 个产生了强候选分子,目前已进入后续研究阶段。这些设计覆盖免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。
在分子生物学领域,Mythos 5 是首个能够持续提出新颖且有说服力的科学假设的模型。在与 Opus 级模型进行双盲对比评测时,科学家对 Mythos 所提假设的偏好率约为 80%,已有多项假设进入实验验证环节。
其中一项关于大肠杆菌某一蛋白质新机制的假设,得到了一个独立研究团队近期发表成果的验证。
在基因组学方面,Mythos 5 自主开展了为期 1 周多的原创性研究。它汇集了横跨 138 个动物物种的数百万个单细胞数据,自行设计并训练了一个定制的机器学习模型,用于识别在亲缘关系甚远的物种中执行相同功能的细胞。
在经验丰富的人类研究者指导下,Mythos 5 训练出的模型超越了近期发表在《科学》期刊上的一个模型,而前者的参数量仅为后者的百分之一。团队计划在未来数月内发表这些成果。
三、采用新型安全分类器,网安、生物学和蒸馏任务或被 " 降智 "
模型能力的大幅度提升,让 Anthropic 开始重新构建模型的安全体系。在面向公众开放的 Fable 5 中,Anthropic 打造了安全分类器,三类请求会被路由到 Opus 4.8。Anthropic 的数据显示,大约 5% 的请求会被降级到 Opus 4.8 进行处理。
在网络安全类任务中,Mythos 级模型擅长发现和利用软件漏洞。因此,它们可以大大简化网络攻击,降低实施成本。为了防止这些黑客技能被应用于网络攻击,Anthropic 设计了网络安全分类器,应用于 Fable 5。

在生物学和化学任务中,Anthropic 此前已经会阻止生化武器相关的任务,但随着模型能力提升,Anthropic 发现一些通用类的生物学和化学研究也有可能被用于危险用途。因此,目前 Fable 5 在这些领域的大部分请求都会被路由到 Opus 4.8 上。
Anthropic 还对所谓 " 蒸馏 " 行为进行了限制,当用户的请求被标记为蒸馏行为时,也会被路由到 Opus 4.8 进行处理。
最后,Anthropic 还要求企业客户将 Mythos 级型号的数据保存 30 天,这些数据不会被用于训练模型,但是会被用于防范网络安全攻击和减少误报。
结语:干活的能力上去了,商业模式也在重构
头部 AI 企业正把竞争重点,转向真实任务的闭环交付能力。通读 Anthropic 的 Fable 5/Mythos 5 博客,可以感受到性能指标与榜单成绩的占比似乎没有那么多了,Anthropic 更希望强调,这一模型能独立把活干完、干对的能力。
同时,在这一代 Claude 模型上,我们也看到了算力成本与订阅模式之间张力的进一步加剧。顶级模型烧 token 的速度远超当前订阅制的承载能力,按量计费、混合计费模式乃至按结果计费的新模式可能会加速普及。这些新型商业化模式的探索也值得关注。