Explosão estilizada envolvendo o logotipo da Cloudflare, cercado por chamas e faíscas.

Como um Arquivo Duplicado na Cloudflare Derrubou boa parte da Internet!

A manhã de 18 de novembro de 2025 ficará marcada como um lembrete contundente da fragilidade da infraestrutura digital que sustenta o cotidiano global. Em um evento que se desenrolou com a velocidade de um clique, mas com o impacto de um terremoto digital, a Cloudflare, gigante por trás da segurança e performance de milhões de sites, sofreu uma pane que reverberou por toda a internet. De plataformas de mídia social a ferramentas de inteligência artificial, a instabilidade se instalou, expondo a dependência crítica do mundo em relação a poucos provedores de serviços.

Alguns dias atrás havíamos relatado um problema que aconteceu com a AWS que gerou um efeito parecido, desta vez a vitima foi a Cloudflare.

A interrupção não foi resultado de um ataque cibernético sofisticado ou de uma falha de hardware massiva. Pelo contrário, a causa foi surpreendentemente mundana: um erro de lógica na geração de um arquivo de configuração dentro do sistema de Bot Management da empresa.

Tudo começou com uma alteração de rotina nas permissões de um dos sistemas de banco de dados da Cloudflare. Esta mudança, aparentemente inócua, desencadeou uma reação em cadeia. O banco de dados, ao processar uma consulta para gerar o arquivo de “recursos” (features) usado pelo Bot Management, começou a incluir entradas duplicadas.

A Falha de Software que Paralisou a Rede

Este arquivo superdimensionado foi então propagado para todas as máquinas que compõem a vasta rede global da Cloudflare. É crucial entender que o software que gerencia o tráfego nessas máquinas possui limites de segurança para evitar o consumo descontrolado de memória e otimizar a performance.

O sistema de Bot Management, por exemplo, tinha um limite de 200 recursos de machine learning que poderia processar em tempo de execução. O arquivo duplicado, contudo, excedeu esse limite.

Consequentemente, ao tentar ler o arquivo de configuração que ultrapassava o limite pré-estabelecido, o software entrou em um estado de “pânico” (panic), um erro não tratado que forçou a interrupção abrupta do processo.

O Impacto Global e os Erros 5xx

A falha no módulo de Bot Management teve um efeito devastador. O sistema central de proxy da Cloudflare, responsável por processar o tráfego dos clientes, começou a retornar códigos de erro HTTP 5xx (erros de servidor) para qualquer tráfego que dependesse desse módulo.

Serviços de grande escala, como o X (antigo Twitter), o ChatGPT e inúmeras outras plataformas que utilizam a Cloudflare para proteção e aceleração, ficaram inacessíveis ou apresentaram severa lentidão. A interrupção não se limitou a um único serviço; ela atingiu a espinha dorsal de uma parcela significativa da internet.

A Cloudflare agiu rapidamente, revertendo a alteração de permissão no banco de dados e implementando um hotfix para aumentar o limite de recursos do Bot Management. Em pouco tempo, o tráfego começou a ser restaurado, mas o incidente já havia demonstrado a interconexão e a vulnerabilidade da rede global.

Lições Aprendidas: A Importância da Resiliência

O post-mortem da Cloudflare enfatiza que a causa raiz foi uma combinação de fatores: uma mudança de permissão no banco de dados, uma suposição incorreta sobre o comportamento de uma consulta e um limite de segurança no software que, embora bem-intencionado, não tratou o erro de forma graciosa.

Portanto, a lição mais importante extraída deste evento é a necessidade de resiliência e redundância em todos os níveis da infraestrutura. A dependência de um único ponto de falha, mesmo que seja um arquivo de configuração de um sistema de segurança, pode ter consequências globais.

A empresa se comprometeu a implementar verificações de sanidade adicionais no processo de geração de arquivos de configuração e a refinar o tratamento de erros em seus módulos de software para evitar que um “pânico” de software resulte em uma interrupção de serviço.

Back To Top