Yapay Zeka Destekli Kod Çekme İsteklerinin Gerçek Dünya Kabul Oranı Düşük

Metr tarafından yapılan bir araştırma, yapay zeka (AI) ajanları tarafından oluşturulan ve SWE-bench testlerini geçen kod çekme isteklerinin (PR'lar) önemli bir kısmının gerçek dünya proje sürdürücüleri tarafından ana dallara birleştirilmeyeceğini ortaya koyuyor. Çalışma, 2024 ortası ile 2025 sonları arasında geliştirilen AI ajanlarının ürettiği PR'ların yaklaşık yarısının, sürdürücülerin birleştirme kararlarındaki gürültü payı ayarlandıktan sonra bile reddedileceğini gösteriyor. Bu durum, AI modellerinin tek seferlik çözümler sunması ve insan geliştiriciler gibi geri bildirim alarak çözümlerini yineleme şansı bulamamasından kaynaklanıyor.

Araştırmacılar, SWE-bench Verified depolarından 3'ünden 4 aktif sürdürücünün, AI tarafından oluşturulan 296 PR'ı ve ana dala zaten birleştirilmiş 47 insan yapımı "altın yama"yı (golden patches) incelemesini sağladı. Sürdürücülerden, yamaları kabul etmeleri veya değişiklik talep etmeleri istendi ve değişiklik talep etme nedenleri (temel işlevsellik hatası, başka kodları bozma veya kod kalitesi sorunları) belirtildi. Sürdürücü kararlarındaki gürültüyü dengelemek için, "altın yama"ların birleştirme oranı bir referans noktası olarak kullanıldı.

Ana sonuçlar, sürdürücülerin birleştirme kararlarının, otomatik derecelendiriciler tarafından sağlanan SWE-bench puanlarından ortalama 24 yüzde puanı daha düşük olduğunu gösteriyor. Bu bulgu, kıyaslama (benchmark) puanlarının saf bir yorumunun, ajanların gerçek dünyadaki faydasını aşırı tahmin etmeye yol açabileceğini ve daha fazla geri bildirim veya insan etkileşimi olmadan AI ajanlarının ne kadar kullanışlı olduğunu sorgulatabileceğini vurguluyor. Çalışma, AI'ın temel bir yetenek sınırlaması olduğunu veya AI ile insanı eşit koşullarda karşılaştırdığını iddia etmiyor; aksine, kıyaslama puanlarının gerçek dünya faydasına nasıl çevrileceği konusundaki belirsizliğe dikkat çekiyor.

Yapay Zeka Destekli Kod Çekme İsteklerinin Gerçek Dünya Kabul Oranı Düşük

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Yapay Zeka Destekli Kod Çekme İsteklerinin Gerçek Dünya Kabul Oranı Düşük

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış