Yazılım geliştirme süreçlerinde, kodlama ajanlarını depolara özel bağlam dosyaları (örneğin AGENTS.md) kullanarak uyarlamak yaygın bir uygulamadır. Bu dosyalar manuel veya otomatik olarak oluşturulabilir ve ajan geliştiricileri tarafından şiddetle tavsiye edilir. Ancak, bu bağlam dosyalarının gerçek dünya görevlerinde ne kadar etkili olduğuna dair kapsamlı bir araştırma bugüne kadar yapılmamıştı. Bu çalışma, söz konusu soruyu ele alarak, kodlama ajanlarının görev tamamlama performansını iki farklı senaryoda değerlendiriyor. İlk senaryo, popüler depolardan alınan yerleşik SWE-bench görevlerini ve LLM tarafından oluşturulan bağlam dosyalarını kullanırken, ikinci senaryo ise geliştiriciler tarafından önceden eklenmiş bağlam dosyaları içeren depolardan alınan yeni sorunları inceliyor.
Birden fazla kodlama ajanı ve büyük dil modeli (LLM) üzerinde yapılan değerlendirmeler şaşırtıcı sonuçlar ortaya koydu. Araştırma, bağlam dosyalarının, herhangi bir depo bağlamı sağlanmadığı duruma kıyasla görev başarı oranlarını düşürme eğiliminde olduğunu gösterdi. Dahası, bu dosyaların inference maliyetini %20'den fazla artırdığı belirlendi. Davranışsal olarak incelendiğinde, hem LLM tarafından oluşturulan hem de geliştiriciler tarafından sağlanan bağlam dosyalarının, ajanları daha geniş kapsamlı keşiflere (örneğin, daha kapsamlı testler ve dosya dolaşımı) teşvik ettiği ve kodlama ajanlarının bu talimatlara uyma eğiliminde olduğu gözlemlendi.
Sonuç olarak, çalışma, bağlam dosyalarındaki gereksiz gereksinimlerin görevleri zorlaştırdığı sonucuna varıyor. Araştırmacılar, insanlar tarafından yazılan bağlam dosyalarının yalnızca minimum gereksinimleri tanımlaması gerektiğini ve karmaşıklığı artırmaktan kaçınılması gerektiğini vurguluyor. Bu bulgular, kodlama ajanlarının geliştirilmesi ve kullanımı için önemli çıkarımlar sunarak, bağlam dosyalarının tasarımına ve içeriğine yönelik yeni bir bakış açısı getiriyor.
Kodlama ajanları için bağlam dosyalarının kullanımı, yaygın inanışın aksine, görev başarı oranlarını düşürebilir ve maliyetleri artırabilir, bu da dosyaların içeriğinin minimalist tutulması gerektiğini gösteriyor.