2 月 6 日,Cloudflare 旗下 R2 对象存储发生 59 分钟的全面宕机,导致所有 R2 相关操作(包括文件上传、下载和元数据管理)完全失效。与此同时,依赖 R2 的多个 Cloudflare 服务,如 Stream、Images、Cache Reserve、Vectorize 和 Log Delivery 也受到严重影响。
事件起因
本次事故由 人为错误 和 滥用处理系统的控制缺陷 共同导致。Cloudflare 在处理一份关于 钓鱼站点 的滥用报告时,错误地 禁用了整个 R2 网关服务,而非针对具体存储桶采取行动。这直接导致 R2 API 瘫痪,并影响了多个依赖 R2 的核心业务。
影响范围
恢复过程
事故发生后,Cloudflare 工程团队 花费近 1 小时 排查问题,并最终通过手动重新部署 R2 网关恢复服务。
08:14 UTC 影响开始,09:13 UTC 恢复,10:29 UTC 完全恢复。
时间线
为防止类似事故重演,Cloudflare 已实施或正在推进 以下改进措施:
Cloudflare 承认此次事故对客户造成了重大影响,并表示深感抱歉。公司承诺将继续优化安全控制,减少人为操作带来的潜在风险,以确保未来不会再发生类似事件。
相关链接: Cloudflare Blog / 蓝点网