Ana Sayfa

Claude Code Performans Düşüşlerini Takip Etme Aracı

1 dk okuma

Marginlab.ai tarafından geliştirilen Claude Code Performans Takip Aracı, Anthropic'in Claude Code modeli olan Opus 4.5'in yazılım mühendisliği (SWE) görevlerindeki performans düşüşlerini istatistiksel olarak tespit etmeyi amaçlayan bağımsız bir platformdur. Bu araç, geçmişte yaşanan performans düşüşleri (Anthropic'in Eylül 2025'teki postmortem raporu gibi) göz önüne alınarak, gelecekte benzer sorunları önceden belirlemek üzere tasarlanmıştır. Günlük olarak güncellenen bu takip sistemi, Claude Code'un sürekli ve güvenilir bir şekilde çalışmasını sağlamak için kritik bir rol oynamaktadır.

Takip sistemi, SWE-Bench-Pro'nun özenle seçilmiş, kirliliğe dayanıklı bir alt kümesi üzerinde günlük değerlendirmeler yapar. Değerlendirmeler doğrudan Claude Code CLI üzerinden, mevcut en güncel SOTA modeli (şu anda Opus 4.5) kullanılarak gerçekleştirilir ve herhangi bir özel araç kullanılmaz. Bu yaklaşım, hem modeldeki değişikliklerden hem de arayüz (harness) güncellemelerinden kaynaklanan performans düşüşlerini tespit etmeye olanak tanır ve gerçek kullanıcı deneyimini yansıtır. Her günlük değerlendirme N=50 test örneği üzerinde yapıldığından, günlük bazda değişkenlik beklenir; bu nedenle daha güvenilir tahminler için haftalık ve aylık sonuçlar birleştirilir.

Performans düşüşlerini belirlemek için Bernoulli rastgele değişkenleri kullanılarak günlük, haftalık ve aylık geçiş oranları etrafında %95 güven aralıkları hesaplanır. Bu sayede, herhangi bir zaman diliminde istatistiksel olarak anlamlı farklılıklar raporlanır. Bu detaylı metodoloji, Claude Code'un performansının sürekli izlenmesini ve olası sorunların erken aşamada tespit edilerek giderilmesini sağlayarak, geliştiricilerin ve kullanıcıların güvenilir bir yapay zeka aracına sahip olmasına katkıda bulunur.

İçgörü

Bu araç, yapay zeka modellerinin zaman içindeki performans değişimlerini şeffaf bir şekilde izleyerek geliştiricilere ve kullanıcılara güvenilir bir referans noktası sunuyor.

Kaynak