Ana Sayfa

LLM'ler Doğru Kod Değil, İkna Edici Kod Yazar

1 dk okuma

Büyük Dil Modelleri (LLM'ler) tarafından üretilen kodların her zaman doğru veya verimli olmadığını, aksine "ikna edici" göründüğünü ancak ciddi performans sorunları barındırabileceğini ortaya koyuyor. Makale, bir veritabanı üzerinde yapılan basit birincil anahtar arama testini örnek gösteriyor: SQLite'ın 0.09 ms süren bu işlemi, bir LLM tarafından Rust ile yeniden yazılan bir veritabanı motorunun 1,815.43 ms'de tamamladığını belirtiyor. Bu, LLM tarafından üretilen kodun orijinalinden 20.171 kat daha yavaş olduğu anlamına geliyor.

Yazar, bu durumun sadece küçük bir hata olmadığını, LLM'lerin kodun derlenmesi, testleri geçmesi ve hatta doğru dosya formatlarını okuyup yazması gibi yüzeysel kriterleri karşılayarak "çalışır" gibi görünmesini sağladığını vurguluyor. Ancak derinlemesine incelendiğinde, özellikle veritabanı sorguları gibi temel işlemlerde korkunç bir performans farkı ortaya çıkıyor. LLM'ler, doğruluktan ziyade "ikna ediciliğe" odaklandığı için bu tür sorunlar yaşanıyor. Yazar, 10 yılı aşkın yazılım geliştirme deneyimine sahip bir uygulayıcı olarak LLM'lerin hızlı prototipleme ve fikirleri hayata geçirme potansiyelini takdir ettiğini, ancak aynı zamanda sessizce yanlış çıktılar, bozuk mantık ve yüzeysel olarak doğru görünen ancak denetimde başarısız olan kod örnekleriyle sıkça karşılaştığını belirtiyor.

Makale, LLM'lerin en iyi şekilde, kullanıcının kabul kriterlerini kod üretilmeden önce net bir şekilde tanımladığı durumlarda çalıştığı sonucuna varıyor. Örnek olarak verilen benchmark sonuçları, özellikle SELECT BY ID gibi işlemlerde 20.171 kat yavaşlama gibi çarpıcı farkları gözler önüne seriyor. Bu durum, LLM'lerin kod üretimindeki potansiyeline rağmen, üretilen çıktıların titizlikle doğrulanması ve performans testlerinden geçirilmesinin kritik önemini vurguluyor.

İçgörü

LLM'ler tarafından üretilen kodlar yüzeysel olarak doğru görünse de, derinlemesine test edildiğinde ciddi performans ve doğruluk sorunları barındırabilir.

Kaynak