Ana Sayfa

Yapay Zeka Destekli Kod İncelemesi İçin Gerçek Dünya Kıyaslaması

1 dk okuma

Mevcut yapay zeka destekli kod inceleme sistemlerinin performansını değerlendiren kıyaslama yöntemleri, genellikle sınırlı kapsamları nedeniyle eleştirilmektedir. Bu yöntemler çoğunlukla düzeltme commit'lerinden hatalı commit'lere geri dönerek hata tespiti üzerine odaklanmakta, ancak kod kalitesi ve en iyi uygulama standartlarının uygulanması gibi kritik yönleri göz ardı etmektedir. Ayrıca, bu yaklaşımlar genellikle izole hatalı commit'ler kullanmakta ve gerçek bir pull request (PR) inceleme senaryosunu simüle etmek yerine küçük ölçekli PR'lar ve sorunlarla sınırlı kalmaktadır. Bu durum, yapay zeka araçlarının gerçek dünya kod inceleme zorluklarını tam olarak yansıtamamasına neden olmaktadır.

Qodo'nun araştırma ekibi, bu eksiklikleri gidermek amacıyla Qodo's code review benchmark 1.0'ı geliştirmiştir. Bu yeni metodoloji, aktif, üretim seviyesindeki açık kaynak depolarından alınan gerçek, birleştirilmiş pull request'lere kasıtlı olarak kusurlar enjekte ederek çalışmaktadır. Bu yenilikçi yaklaşım, hem kod doğruluğunu (hata tespiti) hem de kod kalitesini (en iyi uygulama standartlarının uygulanması) gerçekçi bir kod inceleme bağlamında ve çok daha büyük bir ölçekte (toplam 580 sorun içeren 100 PR) eş zamanlı olarak değerlendirmek üzere tasarlanmıştır. Bu sayede, yapay zeka destekli kod inceleme araçlarının sistem düzeyindeki performansını daha kapsamlı bir şekilde ölçmek mümkün olmaktadır.

Yapılan karşılaştırmalı değerlendirmede, Qodo modeli diğer yedi önde gelen yapay zeka kod inceleme platformuna karşı üstün performans sergilemiştir. Qodo, bu çeşitli kusurları güvenilir bir şekilde tanımlamada %60.1'lik bir F1 puanı elde etmiştir. Bu kıyaslama (benchmark), değerlendirilen araçların incelemeleriyle birlikte herkese açık olarak Qodo'nun GitHub organizasyonunda bulunmaktadır. Bu yeni kıyaslama, yapay zeka destekli kod inceleme araçlarının gelişiminde önemli bir adım teşkil etmekte ve sektördeki standartları yükseltmektedir.

İçgörü

Yapay zeka destekli kod inceleme araçlarının gerçek dünya performansını daha doğru ve kapsamlı bir şekilde ölçmek için yeni bir standart belirliyor.

Kaynak