APP下载

关于ZAKER

合作

虎嗅APP 20分钟前

能力太强，Mythos 被 Anthropic “冻结”

出品｜虎嗅科技组

作者｜赵致格

编辑｜苗正卿

头图｜视觉中国

4 月 8 日，关注 AI 圈动态的极客们收到了一个好消息和一个坏消息。好消息是 Anthropic 那个被传得神乎其神的新模型 Claude Mythos 终于发布了预览版，而各种公开的数据也显示出 Mythos 确实全方面碾压了 Opus4.6。

但坏消息是，因为相关防护机制尚未成熟，Mythos 当前不对公众开放，Anthropic 还为其定制了一个安全项目玻璃墙计划（Project Glasswing）。根据这一安全项目，仅有 12 家机构能访问 Mythos。与此同时，Anthropic 还承诺提供最高 1 亿美元的模型使用额度，用于防御性网络安全研究。

过去一段时间，关于 Mythos 的传闻一直在满天飞。早在 3 月 26 日，Anthropic 的一个内容管理系统出现了错误，曝光了一篇还没有正式发布的草稿。这篇草稿称 Mythos 是 " 史上最强大的模型 "。

X 上同样有人爆料称，某家实验室完成了迄今为止最大的一次成功训练，而新模型的表现远远超过内部预期，也超过了大家根据模型缩放定律（scaling law）能预测的水平。

虽然普通人无法亲自体会这个传说中的又一次 "GPT 时刻 "，但 Anthropic 公布的一系列数据确实显示出 Mythos 强得可怕。

在专业漏洞复现测试 CyberGym 上，Mythos 的得分是 83.1%，而此前 Anthropic 的最强模型 Opus4.6 的分数是 66.6%。

在编程能力方面，Mythos 在 SWE-bench Pro、Terminal-Bench 2.0、SWE-bench Multimodal ( internal implementation ) 、SWE-bench Multilingual、SWE-bench Verified 中的测试分数均显著高于 Opus4.6。Anthropic 称，新模型的能力已经达到 " 可以与最顶尖人类安全专家竞争 " 的水平。

在考验计算机操作能力的 BrowseComp 和 OSWorld-Verified 测试中，Mythos 取得了 86.9% 和 79.6% 的高分并超过了 Opus4.6。

Mythos 不仅是在编程能力上表现强悍。在研究生水平科学问答测试（GPQA Diamond）测试中，Mythos 以 94.6% 的分数超过 Opus4.6 的 91.3%；在 Humanity ‘ s Last Exam 的有工具和无工具测试中，Mythos 56.8% 和 64.7% 的分数均超过 Opus4.6 十个百分点。

不过，上述维护的优异表现并不是 Anthropic 不敢上线 Mythos 的原因。Mythos 真正的可怕之处在它突破软件安全防线的能力太强了。

理论上，所有软件都可能会有漏洞，但是 Mythos 在发现并攻击漏洞上的能力远超人类水平。根据 Anthropic 的博文介绍，Mythos 已经在在操作系统、网络浏览器和其他软件中发现了 " 几千个 " 重大漏洞，其中包括 OpenBSD 中一个存在 27 年的错误，以及 FFmpeg 中一个存在 16 年、在自动测试工具运行 500 万次后仍未被检测到的漏洞。

可以说，全世界所有的软件和系统在 Mythos 面前都显得漏洞百出，脆弱不堪。假如 Mythos 的能力在当下被黑客掌握，无疑会有无数数字基础设施会遭殃。

Anthropic 的 CEO 达里奥 · 阿莫迪（Dario Amodei）Mythos 发布的同时也在 X 上表达了自己的担忧和信心。他表示：" 网络安全是前沿 AI 模型带来的首个明确且现实的危险，但绝不会是最后一个。若我们能共同迎接挑战、应对这一风险，这或将成为一份蓝图，用以解决未来更为艰巨的挑战。"

达里奥随后又进一步解释：" 一旦应对失误，其危险显而易见；但倘若应对得当，我们将真正迎来机遇：建造一个比 AI 网络安全能力出现之前更加安全的互联网与世界。"

面对 AI 发展带来的危险和机遇，Anthropic 提出的应对方法是发起玻璃翼计划（Project Glasswing）。这个项目将向特定组织开放其未公开发布的通用 AI 模型 "Claude Mythos 预览版 "，用于防御性网络安全工作。12 个合作伙伴包括亚马逊、微软、苹果、谷歌、英伟达、CrowdStrike 和 Palo Alto Networks 等科技与网络安全公司。

这 12 家公司覆盖了云计算、浏览器、芯片、金融基础设施、操作系统等各个领域的巨头。可以说，全球数字基础设施的核心参与者都在其中了。而这些参与者将作为防守方抢先一步用上顶级的 AI 模型，补上现有的系统漏洞。

一直以来，Anthropic 都被认为是最重视安全的 AI 的科技公司，不过与之伴随的也有不少争议，很多人认为 Anthropic 只是说说漂亮话，真实目的是想通过提升 AI 安全标准来提升中小公司的入场门槛。

但就此次的玻璃翼计划（Project Glasswing）而言，Anthropic 的行动无疑是值得人们赞许的。在研发出了最强模型后，Anthropic 没有将它第一时间推向市场谋取最大曝光，而是先让全球信息基础设施来完善自己，为全球软件安全筑起新一代屏障，也为为未来高风险 AI 治理提供了可复制的蓝图。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

能力太强，Mythos 被 Anthropic “冻结”

宙世代

一起剪

相关阅读

海河牛奶成也网红败也网红

让消费的“假日效应”延续

全球市场“大逆转”

父母爱情：江德福返乡探亲，欧阳懿为何奉若上宾？四件事说明一切

美伊调停者为何是巴基斯坦？

一战封神！荣耀官宣与张雪机车战略合作 张雪发声感谢

印度禁止中国大陆产摄像头监控：花高价大批替换 国产厂商回应

砸了8000块，儿子的眼轴还是涨了0.1mm

建议我国跟进吗！希腊禁止15岁以下人群使用社交媒体 根治网络成瘾等问题

价值1.6亿！美国阿尔忒弥斯2号飞船的高级厕所彻底坏了：宇航员被逼用尿袋

被爆婚内出轨等！比尔盖茨受够：就爱泼斯坦案公开作证 自证清白

“不惯着消费者”这事，香格里拉开了一个好头

全球最大！太重集团造5600毫米冷矫直机成功发运

张雪机车WSBK冠军奖杯回国！张雪首次捧起奖杯 夺冠画面被做蛋糕庆祝

靠香菜牛奶火爆全网，却因直播间涉黄“翻车”，85后掌舵的天津乳企被经销商“坑”了

最新评论

读览精华

热门推荐

企业资讯

热门订阅 换一批

中保新知

挖贝网

GMIF创新观察

医线Insight

银莕财经

局市

一战封神！荣耀官宣与张雪机车战略合作张雪发声感谢

印度禁止中国大陆产摄像头监控：花高价大批替换国产厂商回应

建议我国跟进吗！希腊禁止15岁以下人群使用社交媒体根治网络成瘾等问题

被爆婚内出轨等！比尔盖茨受够：就爱泼斯坦案公开作证自证清白

张雪机车WSBK冠军奖杯回国！张雪首次捧起奖杯夺冠画面被做蛋糕庆祝

热门订阅换一批