Bir ağ mühendisi, Meta'nın Boca Raton ve Miami'deki sunucu kümelerinde yedi aydır devam eden ciddi bir ağ sorunu olduğunu iddia ediyor. Bu sorun, özellikle Latin Amerika'daki kullanıcılara yönelik MNA içerik dağıtım ağı ve doğrudan içerik tüketimini etkiliyor. Mühendis, sorunun ICMP ve TCP üzerinden izlenebilir olduğunu, ancak UDP üzerinden ölçülmesinin zor olduğunu belirtiyor. Bu durum, standart izleme araçlarının yanıltıcı sonuçlar vermesine neden oluyor; çünkü sorun arayüz doygunluğundan kaynaklanan bir yavaşlık değil, paketlerin arayüz seviyesinde atılmasıyla oluşan veri bozulması şeklinde ortaya çıkıyor. Bu nedenle, Meta'nın mevcut izleme sistemleri bu tür bir arızayı tespit edemiyor ve herhangi bir uyarı vermiyor.
Mühendis, sorunun Meta'nın kendi ağındaki bir BGP, OSPF veya IGP örneğinde paket kaybı ve muhtemelen 'flapping' olduğunu düşünüyor. Özellikle 129.134.101.34, 129.134.104.84 ve 129.134.101.51 IP adresleri arasındaki bağlantılarda bir sorun olabileceğine işaret ediyor. Bu durumun, bir 'bundle' içindeki hatalı bir arayüz veya 'show interface status' komutunun ortaya çıkaramadığı bir donanım sorunu olabileceği tahmin ediliyor. Bu tip sorunların Meta hizmetleri için kötü bir kullanıcı deneyimine yol açtığını ve endemik bir problem haline geldiğini vurguluyor.
Sorunu Meta'nın NOC'una bildirme girişimleri, şirketin kendi izleme sistemlerinin sorunu görmemesi nedeniyle başarısızlıkla sonuçlanmış. Mühendis, daha önce 2023'te benzer bir durum yaşadığını ve sorunun ancak altı ay sonra, "sahte" bir talep oluşturarak Meta teknik destekten birinin arızalı arayüzü kontrol etmesini sağladıktan sonra çözüldüğünü belirtiyor. Bu deneyim, Meta'nın izleme sistemlerinin bu tür gizli sorunlar için yetersiz olduğunu gösteriyor. Mühendis, Meta'nın sorunu nasıl tekrarlayabileceğine dair adımlar da sunuyor.
Bu durum, büyük teknoloji şirketlerinin bile karmaşık ağ sorunlarını tespit etme ve çözme konusunda zorluklar yaşayabileceğini ve standart izleme yöntemlerinin her zaman yeterli olmadığını ortaya koyuyor.