井底圈小蛙
关注科技圈

Cloudflare发布12月5日服务短暂中断事故原因

2025 年 12 月 5 日 08:47 UTC,Cloudflare 网络中的一部分节点开始出现严重故障,约 28% 的 HTTP 流量受到影响。09:12 UTC 问题被完全修复,总共持续约 25 分钟。

Cloudflare在其官方博客发布文章称,本次事故并非由网络攻击或任何恶意行为引发,而是在Cloudflare尝试检测和缓解本周披露的React Server Components漏洞(CVE-2025-55182)时,对请求体解析逻辑(body parsing logic)所做的配置变更引发的非预期错误。

事件概览

开始时间:2025 年 12 月 5 日 08:47 UTC
结束时间:2025 年 12 月 5 日 09:12 UTC
总影响时长:约 25 分钟

影响范围

约 28% 的 HTTP 请求流量。仅当客户使用了旧版代理(FL1 proxy)且启用了 Cloudflare 的托管规则集(Managed Ruleset)时才会受到影响。未同时满足这两个条件的客户未受到影响。

详细原因

Cloudflare表示,为了应对 CVE-2025-55182 漏洞,其计划将 WAF 的请求体缓冲区从 128KB 扩大到 1MB,以适配 Next.js 默认行为。该变更最初通过他们的渐进式部署系统进行分发。

但在此过程中,Cloudflare内部用于测试规则的工具出现错误。因此他们决定暂时禁用该工具。这一操作是通过Cloudflare的全局配置系统(global configuration system) 完成的,此系统会在几秒钟内将配置变更同步至整个网络,并非采用渐进方式。

问题出现在旧版代理(FL1 proxy)中。在某些条件下,此配置变更触发了 WAF 模块中的一个历史性 bug,导致系统尝试引用一个未定义的字段,触发了 Lua 异常:
[lua] Failed to run module rulesets callback late_routing: /usr/local/nginx-fl/lua/modules/init.lua:314: attempt to index field 'execute' (a nil value)

解决过程

08:47 UTC 配置变更被部署并开始传播至 Cloudflare 网络。
08:48 UTC 配置已完全传播,HTTP 500 错误开始在全球范围内显现,约 28% 的 HTTP 流量受影响。
08:50 UTC 自动告警系统触发,Cloudflare 工程团队确认故障并开始调查。问题初步定位为与最近的规则系统更改有关。
09:11 UTC 识别出具体错误根源后,配置变更被回滚,恢复流程启动。
09:12 UTC 回滚操作完成,变更完全传播至网络,所有流量恢复正常,服务全面恢复。

这是Cloudflare在2025年第二次重大中断,距离上一次11月18日的事故仅仅过去不到三周时间。目前Cloudflare表示将暂停对生产网络的任何配置更改,直到完成更可靠的回滚机制与韧性提升系统的部署。

圈小蛙现已开通Telegram。单击此处加入我们的频道 (@quanxiaowa)并随时了解最新科技圈动态!

除特别注明外,本站所有文章均系根据各大境内外消息渠道原创,转载请注明出处。
文章名称:《Cloudflare发布12月5日服务短暂中断事故原因》
文章链接:https://www.qxwa.com/cloudflare-releases-cause-of-december-5-service-interruption.html
分享到: 生成海报

评论 抢沙发

科技圈动态,尽在圈小蛙

联系我们关注我们