ETH Zürih'ten yapılan yeni bir araştırma, sektördeki yaygın tavsiyelerin aksine, AGENTS.md dosyalarının yapay zeka kodlama ajanlarının performansını çoğu zaman olumsuz etkileyebileceğini ortaya koydu. Araştırmacılar, büyük dil modelleri (LLM) tarafından oluşturulan bağlam dosyalarının tamamen çıkarılmasını ve insanlar tarafından yazılan talimatların yalnızca çok spesifik araçlar veya özel derleme komutları gibi çıkarılamayan detaylarla sınırlı tutulmasını öneriyor. Bu bulgu, 60.000'den fazla açık kaynak deposunda AGENTS.md gibi bağlam dosyaları bulunmasına ve birçok ajan framework'ünün bunları otomatik olarak oluşturma komutlarına sahip olmasına rağmen, bu dosyaların gerçek dünya kodlama görevlerini çözme yeteneğini gerçekten iyileştirip iyileştirmediğine dair ilk titiz ampirik araştırmayı temsil ediyor.
Araştırma ekibi, popüler kıyaslama testlerinin (benchmark) önyargılarından kaçınmak için niş depolardan alınan 138 gerçek dünya Python görevinden oluşan yeni bir veri kümesi olan AGENTbench'i oluşturdu. Claude 3.5 Sonnet, Codex GPT-5.2 ve GPT-5.1 mini ile Qwen Code olmak üzere dört farklı ajan, bağlam dosyası olmadan, LLM tarafından oluşturulmuş bir dosya ile ve insan tarafından yazılmış bir dosya ile olmak üzere üç farklı senaryoda test edildi. LLM tarafından oluşturulan bağlam dosyalarının, görev başarı oranını ortalama %3 oranında düşürdüğü ve ajanların adım sayısını artırarak çıkarım maliyetlerini %20'den fazla yükselttiği gözlemlendi. İnsan tarafından yazılan dosyalar ise görev başarı oranında ortalama %4'lük marjinal bir artış sağlasa da, adım sayısını ve dolayısıyla maliyetleri %19'a kadar artırdı.
Performans düşüşünün ve maliyet artışının nedenini anlamak için yapılan derinlemesine analizler, ajanların AGENTS.md dosyasındaki talimatları çok titizlikle takip ettiğini gösterdi. Bu durum, ajanların gereksiz yere daha fazla test çalıştırmasına, daha fazla dosya okumasına, daha fazla grep araması yapmasına ve daha fazla kod kalitesi kontrolü gerçekleştirmesine yol açtı. Yazarlar, bu ekstra bağlamın, akıl yürütme modellerini daha fazla "düşünmeye" zorladığını ancak daha iyi nihai yamalar üretmediğini ve çoğu zaman belirli görevi çözmek için gereksiz olduğunu belirtti. Bu da, bağlam dosyalarının kullanımının dikkatli bir şekilde değerlendirilmesi gerektiğini ortaya koyuyor.
Yapay zeka kodlama ajanlarının performansını artırmak amacıyla kullanılan AGENTS.md dosyalarının, özellikle LLM tarafından oluşturulduğunda, çoğu zaman performansı düşürdüğü ve maliyetleri artırdığı ortaya çıktı.