LoopDNS资讯播报
Cloudflare发布2025 年 11 月 18 日服务中断事故说明 2025 年 11 月 18 日,Cloudflare 遭遇了一次严重的服务中断。本次事故并非由网络攻击引发,而是由我们内部的 Bot Management(机器人管理)系统生成的一个错误配置文件导致的。该文件导致 Cloudflare 全球网络中的核心服务无法正常路由流量。目前该问题已完全解决。 事件概览 开始时间:2025 年 11 月 18 日 11:20 UTC 结束时间:核心流量于 14:30 UTC 恢复,所有系统于…
Cloudflare发布2025 年 12 月 5 日服务中断事故说明

2025 年 12 月 5 日 08:47 UTC,Cloudflare 网络中的一部分节点开始出现严重故障,约 28% 的 HTTP 流量受到影响。09:12 UTC 问题被完全修复,总共持续约 25 分钟。

本次事故并非由网络攻击或任何恶意行为引发,而是在我们尝试检测和缓解本周披露的 React Server Components 漏洞(CVE-2025-55182)时,对请求体解析逻辑(body parsing logic)所做的配置变更引发的非预期错误。

事件概览
开始时间:2025 年 12 月 5 日 08:47 UTC

结束时间:2025 年 12 月 5 日 09:12 UTC

总影响时长:约 25 分钟

影响范围:约 28% 的 HTTP 请求流量。仅当客户使用了旧版代理(FL1 proxy)且启用了 Cloudflare 的托管规则集(Managed Ruleset)时才会受到影响。未同时满足这两个条件的客户未受到影响。


详细原因
为了应对 CVE-2025-55182 漏洞,我们计划将 WAF 的请求体缓冲区从 128KB 扩大到 1MB,以适配 Next.js 默认行为。该变更最初通过我们的渐进式部署系统进行分发。

但在此过程中,我们内部用于测试规则的工具出现错误。因此我们决定暂时禁用该工具。这一操作是通过我们的 全局配置系统(global configuration system) 完成的,此系统会在几秒钟内将配置变更同步至整个网络,并非采用渐进方式。

问题出现在旧版代理(FL1 proxy)中。在某些条件下,此配置变更触发了 WAF 模块中的一个历史性 bug,导致系统尝试引用一个未定义的字段,触发了 Lua 异常:

[lua] Failed to run module rulesets callback late_routing: /usr/local/nginx-fl/lua/modules/init.lua:314: attempt to index field 'execute' (a nil value)



解决过程
08:47 UTC
配置变更被部署并开始传播至 Cloudflare 网络。

08:48 UTC
配置已完全传播,HTTP 500 错误开始在全球范围内显现,约 28% 的 HTTP 流量受影响。

08:50 UTC
自动告警系统触发,Cloudflare 工程团队确认故障并开始调查。问题初步定位为与最近的规则系统更改有关。

09:11 UTC
识别出具体错误根源后,配置变更被回滚,恢复流程启动。

09:12 UTC
回滚操作完成,变更完全传播至网络,所有流量恢复正常,服务全面恢复。


这是 Cloudflare 在 2025 年第二次重大中断,距离上一次 11 月 18 日的事故仅仅过去不到三周时间。目前 Cloudflare 表示将暂停对生产网络的任何配置更改,直到完成更可靠的回滚机制与韧性提升系统的部署。

消息来源:Cloudflare Blog
 
 
Back to Top