本周,Cloudflare 发生六年来最严重的服务中断事件。数据库访问控制权限变更触发其全球网络连锁故障,导致大量网站及在线平台近 6 小时无法访问。
Cloudflare 全球网络是一套分布式基础设施,服务器与数据中心遍布 120 多个国家,提供内容分发、安全防护及性能优化服务。该网络已与全球超 1.3 万个网络建立连接,包括所有主流互联网服务提供商(ISP)、云服务商及企业网络。
公司首席执行官 Matthew Prince 在故障缓解后发布的事后分析报告中表示,此次服务中断并非由网络攻击导致。故障源于某一数据库系统的权限变更——这一变更导致数据库向 " 机器人管理系统 " 使用的 " 特征文件 " 中输出多条重复条目。
一项常规的数据库权限更新,致使 Cloudflare 的机器人管理系统生成了包含重复条目的超大配置文件。该文件超出系统内置大小限制,导致网络流量路由过程中相关软件崩溃。
权限变更后,数据库查询返回了重复的列元数据,使特征文件中的条目从约 60 个翻倍至 200 多个,突破了系统为防止内存无限制占用而硬编码设定的 200 个特征上限。

每五分钟系统会生成一次配置文件——结果可能正常也可能存在故障,具体取决于哪些集群节点已完成更新,这导致网络在正常运行与故障状态之间反复波动。
此外,当超大文件在网络设备间传播时,机器人管理模块的 Rust 代码触发系统崩溃并返回 5xx 错误,进而导致负责流量处理的核心代理系统宕机。
随后,Cloudflare 工程师定位故障根源并将问题文件替换为早期版本后,核心流量恢复正常。不久后,所有系统完全恢复运行。此次中断影响了 Cloudflare 的核心 CDN、安全服务、Turnstile 验证服务、Workers KV 存储服务、控制台访问、邮件安全及身份认证服务。
Matthew Prince 表示 " 鉴于 Cloudflare 在互联网生态系统中的重要性,任何系统中断都是不可接受的。"
此次中断事件是 Cloudflare 自 2019 年以来最严重的一次服务中断。以往也曾出现过控制台无法访问、新功能暂时不可用等情况,但过去六年多来,从未发生过导致大部分核心流量无法通过我们网络的中断事件。
今年 6 月,Cloudflare 曾缓解过另一起大规模中断事件,当时导致多个地区的零信任 WARP 连接出现问题、身份认证服务故障,还影响了谷歌云基础设施。
10 月,亚马逊也处理了一起由重大 DNS 故障引发的中断事件,该故障导致数百万使用其亚马逊网络服务(AWS)云计算平台的网站连接中断。