Cloudflare mengatakan pemadaman besar-besaran yang memengaruhi lebih dari selusin pusat data dan ratusan platform dan layanan online utama saat ini disebabkan oleh perubahan yang seharusnya meningkatkan ketahanan jaringan.
Menurut laporan pengguna, daftar lengkap situs web dan layanan yang terpengaruh termasuk, tetapi tidak terbatas pada, Amazon, Twitch, Amazon Web Services, Steam, Coinbase, Telegram, Discord, DoorDash, Gitlab, dan banyak lagi.
Perusahaan mulai menyelidiki insiden ini sekitar pukul 06:34 UTC setelah laporan konektivitas ke jaringan Cloudflare yang terganggu mulai datang dari pelanggan dan pengguna di seluruh dunia.
Meskipun tidak ada rincian mengenai apa yang menyebabkan pemadaman dalam laporan insiden yang dipublikasikan di situs status sistem Cloudflare, perusahaan membagikan lebih banyak info tentang pemadaman 21 Juni di blog resmi.
Meskipun lokasi yang terpengaruh hanya mewakili 4% dari seluruh jaringan Cloudflare, pemadaman mereka memengaruhi sekitar 50% dari semua permintaan HTTP yang ditangani oleh Cloudflare secara global.
Perubahan yang menyebabkan pemadaman hari ini adalah bagian dari proyek yang lebih besar yang akan mengubah pusat data di lokasi tersibuk Cloudlfare menjadi arsitektur yang lebih tangguh dan fleksibel, yang secara internal dikenal sebagai Multi-Colo PoP (MCP).
Daftar pusat data yang terpengaruh dalam insiden hari ini termasuk Amsterdam, Atlanta, Ashburn, Chicago, Frankfurt, London, Los Angeles, Madrid, Manchester, Miami, Milan, Mumbai, Newark, Osaka, São Paulo, San Jose, Singapura, Sydney, dan Tokyo.
Garis waktu pemadaman:
3:56 UTC: Kami menerapkan perubahan ke lokasi pertama kami. Tidak ada lokasi kami yang terpengaruh oleh perubahan, karena ini menggunakan arsitektur lama kami.
06:17: Perubahan diterapkan ke lokasi tersibuk kami, tetapi bukan lokasi dengan arsitektur MCP.
06:27: Peluncuran mencapai lokasi yang mendukung MCP, dan perubahan diterapkan ke punggung kami. Saat itulah insiden dimulai, karena ini dengan cepat membuat 19 lokasi ini offline.
06:32: Insiden Cloudflare internal diumumkan.
06:51: Perubahan pertama dilakukan pada router untuk memverifikasi akar penyebab.
06:58: Akar penyebab ditemukan dan dipahami. Pekerjaan mulai mengembalikan perubahan yang bermasalah.
07:42: Pengembalian terakhir telah selesai. Ini tertunda karena insinyur jaringan berjalan di atas perubahan satu sama lain, mengembalikan pengembalian sebelumnya, menyebabkan masalah muncul kembali secara sporadis.
Sumber: Bleeping Computer