LoopDNS资讯播报
Cloudflare全球网络遭遇故障,导致大范围网站服务中断 北京时间2025年11月18日晚间 - 全球内容分发网络(CDN)及安全服务商Cloudflare遭遇大规模网络问题,导致全球范围内众多依赖其服务的网站和应用程序出现“500内部服务器错误”,服务普遍中断。 根据Cloudflare官方状态页面的信息,该问题最早于北京时间11月18日19:48(UTC时间11:48)被确认。Cloudflare在当时的公告中表示,已意识到该问题并正在进行紧急调查。受影响的症状包括大范围的500错误,此外,连…
Cloudflare发布2025 年 11 月 18 日服务中断事故说明

2025 年 11 月 18 日,Cloudflare 遭遇了一次严重的服务中断。本次事故并非由网络攻击引发,而是由我们内部的 Bot Management(机器人管理)系统生成的一个错误配置文件导致的。该文件导致 Cloudflare 全球网络中的核心服务无法正常路由流量。目前该问题已完全解决。

事件概览

开始时间:2025 年 11 月 18 日 11:20 UTC

结束时间:核心流量于 14:30 UTC 恢复,所有系统于 17:06 UTC 完全恢复正常。

影响范围:Cloudflare 的全球网络无法传递核心网络流量。互联网用户在访问使用 Cloudflare 的网站(如 X/Twitter, ChatGPT 等)时会遇到指示 Cloudflare 网络故障的错误页面(通常是 HTTP 500 错误)。


详细原因

本次中断并非由网络攻击或任何恶意活动直接或间接引发。完全源于内部配置错误。
触发事件: 我们的工程师更改了一个数据库系统的权限设置。

连锁反应: 这个看似常规的更改产生了一个意想不到的副作用——它导致数据库向我们的“机器人管理(Bot Management)”系统使用的一个关键“功能文件(feature file)”输出了大量重复条目。

文件异常: 由于这些重复条目,该功能文件的大小瞬间增加了一倍,远远超出了正常范围。

系统崩溃: 这个异常巨大的文件被自动推送到了构成 Cloudflare 全球网络的所有服务器上。负责在这些机器上路由流量的软件在读取该文件以更新威胁情报时,由于文件大小超过了软件设定的上限缓冲区,导致软件崩溃。

结果:路由软件崩溃后无法重启,导致服务器无法处理和转发任何网络流量。


解决过程

事故发生初期,由于影响范围极广,我们曾短暂怀疑这是否是一次超大规模的 DDoS 攻击,但通过快速分析,我们很快排除了遭到攻击的可能性。

我们迅速定位到问题源头在于 Bot Management 模块及其下发的异常配置文件。

• 修复措施: 我们紧急停止了新配置文件的自动部署流程,并强制将全球网络中的该文件回滚到之前的旧版本(正常版本)。

• 恢复: 随着旧配置文件的生效,路由软件重新启动,核心流量开始恢复。随后的几个小时内,我们持续监控并缓解因流量重新涌入而对网络各部分造成的负载压力,直到所有服务完全恢复。


本次事故是 Cloudflare 自 2019 年以来遭遇的最严重的一次中断事故。

消息来源: Cloudflare Blog
 
 
Back to Top