Metr tarafından yapılan bir araştırma, yapay zeka (AI) ajanları tarafından oluşturulan ve SWE-bench testlerini geçen kod çekme isteklerinin (PR'lar) önemli bir kısmının gerçek dünya proje sürdürücüleri tarafından ana dallara birleştirilmeyeceğini ortaya koyuyor. Çalışma, 2024 ortası ile 2025 sonları arasında geliştirilen AI ajanlarının ürettiği PR'ların yaklaşık yarısının, sürdürücülerin birleştirme kararlarındaki gürültü payı ayarlandıktan sonra bile reddedileceğini gösteriyor. Bu durum, AI modellerinin tek seferlik çözümler sunması ve insan geliştiriciler gibi geri bildirim alarak çözümlerini yineleme şansı bulamamasından kaynaklanıyor.
Araştırmacılar, SWE-bench Verified depolarından 3'ünden 4 aktif sürdürücünün, AI tarafından oluşturulan 296 PR'ı ve ana dala zaten birleştirilmiş 47 insan yapımı "altın yama"yı (golden patches) incelemesini sağladı. Sürdürücülerden, yamaları kabul etmeleri veya değişiklik talep etmeleri istendi ve değişiklik talep etme nedenleri (temel işlevsellik hatası, başka kodları bozma veya kod kalitesi sorunları) belirtildi. Sürdürücü kararlarındaki gürültüyü dengelemek için, "altın yama"ların birleştirme oranı bir referans noktası olarak kullanıldı.
Ana sonuçlar, sürdürücülerin birleştirme kararlarının, otomatik derecelendiriciler tarafından sağlanan SWE-bench puanlarından ortalama 24 yüzde puanı daha düşük olduğunu gösteriyor. Bu bulgu, kıyaslama (benchmark) puanlarının saf bir yorumunun, ajanların gerçek dünyadaki faydasını aşırı tahmin etmeye yol açabileceğini ve daha fazla geri bildirim veya insan etkileşimi olmadan AI ajanlarının ne kadar kullanışlı olduğunu sorgulatabileceğini vurguluyor. Çalışma, AI'ın temel bir yetenek sınırlaması olduğunu veya AI ile insanı eşit koşullarda karşılaştırdığını iddia etmiyor; aksine, kıyaslama puanlarının gerçek dünya faydasına nasıl çevrileceği konusundaki belirsizliğe dikkat çekiyor.
Yapay zeka modellerinin kod üretme yeteneklerinin kıyaslama testlerindeki başarısı, gerçek dünya proje sürdürücülerinin beklentileriyle önemli ölçüde farklılık gösteriyor.