Ana Sayfa

AGENTS.md Dosyaları Değil, Değerlendirme Eksikliği Sorun

1 dk okuma

Yakın zamanda yayımlanan bir araştırma, geliştirici çevrelerinde büyük yankı uyandırdı. Bu çalışma, geliştiriciler tarafından yazılan bağlam dosyalarının (AGENTS.md, CLAUDE.md gibi) görev tamamlama oranını ortalama yalnızca %4 artırdığını, LLM tarafından üretilenlerin ise performansı %3 düşürdüğünü ortaya koydu. Her iki durumda da maliyetler %20'nin üzerinde arttı. Bu sonuçlar, ünlü geliştirici Theo'nun (t3.gg) bir videosunda da özetlendiği gibi, bu tür dosyaları yazmayı veya otomatik olarak oluşturmayı bırakma yönünde bir çıkarıma yol açtı. Ancak makale, bu çıkarımın yanlış olduğunu ve sorunun bağlam dosyalarında değil, bunların nasıl kullanıldığında yattığını savunuyor.

Makaleye göre, bağlam dosyaları aslında bir ajanın kod tabanınızdaki davranışını şekillendirmek için tasarlanmış talimatlar, görüşler, kısıtlamalar veya desenler bütünüdür. Sorun, çoğu geliştiricinin bu talimatların işe yarayıp yaramadığını bilememesidir. Geliştiriciler genellikle dosyayı yazar, ajanın daha iyi davrandığını hisseder ve herhangi bir ölçüm veya geri bildirim döngüsü olmaksızın bir sonraki konuya geçerler. Bu durum, ajana gereksiz tokenler ekleyen veya hatta yanlış yönlendiren talimatlarla dolu dosyaların ortaya çıkmasına neden olur. Örneğin, bir bağlam dosyasının tRPC'ye gereksiz referanslar içermesi, modelin yanlış yerlerde bu aracı kullanmaya çalışmasına yol açabilir.

Bu durum, kötü yazılmış testlere benzetiliyor. Kötü bir test paketi ekibi yavaşlattığında, ona olan güven kaybolur ve bazı ekipler testleri atlamayı tercih eder. Ancak doğru yaklaşım, hangi testlerin değerli sinyal sağladığını ve hangilerinin gürültü olduğunu belirleyip gürültüyü ortadan kaldırmaktır. Aynı şekilde, bağlam dosyaları da bir geri bildirim döngüsü (evals) olmadan yazıldığında, ajanın zaten bileceği şeylerle (package.json okumak, klasör yapısını keşfetmek gibi) veya aktif olarak yanlış talimatlarla dolar. Dolayısıyla, asıl sorun bağlamın kendisi değil, onu doğrulamak için evals eksikliğidir.

İçgörü

LLM'ler için bağlam dosyalarının etkinliğini artırmak, körü körüne yazmak yerine, tıpkı yazılım testleri gibi sürekli değerlendirme ve geri bildirim döngüleri ile mümkün olacaktır.

Kaynak