Büyük Dil Modelleri Kodlama Yeteneğinde Gelişmiyor mu?

Bir makale, Büyük Dil Modelleri'nin (LLM) kodlama performansını incelerken, testleri geçme oranları ile bir yazılım geliştiricisi tarafından onaylanacak "birleştirilebilir" (mergeable) kod üretme oranları arasındaki büyük farkı ortaya koyuyor. Metr tarafından yapılan bu çalışma, LLM'lerin testleri başarıyla geçme konusunda yüksek bir orana sahipken, gerçek dünyada bir projeye entegre edilebilecek kalitede kod üretme yeteneklerinin çok daha düşük olduğunu gösteriyor. Başarı kriteri "tüm testleri geçme" olduğunda %50 başarı eşiği 50 dakikayken, "sürdürücü tarafından onaylanma" kriteri kullanıldığında bu süre sadece 8 dakikaya düşüyor. Bu durum, LLM'lerin ürettiği kodun işlevselliği ile gerçek proje ihtiyaçları arasındaki uçurumu net bir şekilde gözler önüne seriyor.

Makalenin yazarı, metr'in verilerini daha yakından inceleyerek, özellikle kod birleştirme oranlarındaki değişime odaklanıyor. Yazar, metr'in hafif yukarı yönlü bir eğilim önerisinin aksine, 2025 başından bu yana birleştirme oranlarında herhangi bir gerçek iyileşme kanıtı olmadığını savunuyor. Bu gözlemi daha resmi hale getirmek için leave-one-out çapraz doğrulama ve Brier skoru kullanılıyor. Yapılan analizler, hafif yukarı yönlü bir eğim yerine, parçalı sabit veya tamamen sabit bir fonksiyonun veriye daha iyi uyduğunu gösteriyor. Brier skoru düşük olan modeller daha iyi uyum sağladığından, sabit birleştirme oranlarını öngören modellerin doğrusal büyüme eğiliminden daha doğru olduğu ortaya çıkıyor.

Bu bulgular, LLM'lerin kodlama yeteneklerinde bir yıldan uzun süredir kayda değer bir gelişme göstermediği anlamına geliyor. Sektördeki genel algı ve yeni modellerle ilgili iddialara rağmen, titizlikle ölçülmüş birleştirme oranları, bu iddiaları destekleyecek somut bir kanıt sunmuyor. Yazar, 2025 boyunca da benzer iddiaların ortaya atıldığını ancak bunların doğru çıkmadığını belirtiyor. Mevcut durumda da "buzz" ile gerçek performans arasındaki farkın ne kadar büyük olduğu sorusu, makalenin temel ilgi alanı olarak öne çıkıyor.

Büyük Dil Modelleri Kodlama Yeteneğinde Gelişmiyor mu?

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Büyük Dil Modelleri Kodlama Yeteneğinde Gelişmiyor mu?

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış