Ana Sayfa

Büyük Dil Modelleri Kodlama Yeteneğinde Gelişmiyor mu?

1 dk okuma

Bir makale, Büyük Dil Modelleri'nin (LLM) kodlama performansını incelerken, testleri geçme oranları ile bir yazılım geliştiricisi tarafından onaylanacak "birleştirilebilir" (mergeable) kod üretme oranları arasındaki büyük farkı ortaya koyuyor. Metr tarafından yapılan bu çalışma, LLM'lerin testleri başarıyla geçme konusunda yüksek bir orana sahipken, gerçek dünyada bir projeye entegre edilebilecek kalitede kod üretme yeteneklerinin çok daha düşük olduğunu gösteriyor. Başarı kriteri "tüm testleri geçme" olduğunda %50 başarı eşiği 50 dakikayken, "sürdürücü tarafından onaylanma" kriteri kullanıldığında bu süre sadece 8 dakikaya düşüyor. Bu durum, LLM'lerin ürettiği kodun işlevselliği ile gerçek proje ihtiyaçları arasındaki uçurumu net bir şekilde gözler önüne seriyor.

Makalenin yazarı, metr'in verilerini daha yakından inceleyerek, özellikle kod birleştirme oranlarındaki değişime odaklanıyor. Yazar, metr'in hafif yukarı yönlü bir eğilim önerisinin aksine, 2025 başından bu yana birleştirme oranlarında herhangi bir gerçek iyileşme kanıtı olmadığını savunuyor. Bu gözlemi daha resmi hale getirmek için leave-one-out çapraz doğrulama ve Brier skoru kullanılıyor. Yapılan analizler, hafif yukarı yönlü bir eğim yerine, parçalı sabit veya tamamen sabit bir fonksiyonun veriye daha iyi uyduğunu gösteriyor. Brier skoru düşük olan modeller daha iyi uyum sağladığından, sabit birleştirme oranlarını öngören modellerin doğrusal büyüme eğiliminden daha doğru olduğu ortaya çıkıyor.

Bu bulgular, LLM'lerin kodlama yeteneklerinde bir yıldan uzun süredir kayda değer bir gelişme göstermediği anlamına geliyor. Sektördeki genel algı ve yeni modellerle ilgili iddialara rağmen, titizlikle ölçülmüş birleştirme oranları, bu iddiaları destekleyecek somut bir kanıt sunmuyor. Yazar, 2025 boyunca da benzer iddiaların ortaya atıldığını ancak bunların doğru çıkmadığını belirtiyor. Mevcut durumda da "buzz" ile gerçek performans arasındaki farkın ne kadar büyük olduğu sorusu, makalenin temel ilgi alanı olarak öne çıkıyor.

İçgörü

Büyük Dil Modellerinin (LLM) kodlama yeteneklerindeki gerçek ilerlemenin, testleri geçme oranlarından ziyade, birleştirilebilir kod üretme kapasitesiyle ölçüldüğünde bir yıldan uzun süredir duraksadığı görülüyor.

Kaynak