Büyük dil modelleri (LLM'ler) ajan olarak kullanıldığında, genellikle çevresel kurallara aykırı veya suboptimal eylemler gerçekleştirebilirler. Örneğin, yakın zamanda düzenlenen Kaggle GameArena satranç yarışmasında, Gemini-2.5-Flash'ın kayıplarının %78'i yasa dışı hamlelerden kaynaklanmıştır. Bu tür hataları önlemek için genellikle LLM'lerin etrafına manuel olarak "harness" adı verilen kodlar yazılır.
AutoHarness adlı yeni bir çalışma, Gemini-2.5-Flash'ın çevreden gelen geri bildirimlerle iteratif kod iyileştirmesi yaparak bu tür kod harness'larını otomatik olarak sentezleyebildiğini göstermektedir. Bu yöntem, 145 farklı TextArena oyununda (hem tek oyunculu hem de iki oyunculu) tüm yasa dışı hamleleri engellemeyi başarmıştır. Sonuç olarak, daha küçük olan Gemini-2.5-Flash modeli, Gemini-2.5-Pro gibi daha büyük modellerden daha iyi performans göstermiştir.
Araştırma, tekniği daha da ileriye taşıyarak Gemini-2.5-Flash'ın tüm politikayı kod olarak üretebildiğini ve böylece karar verme anında LLM kullanımına olan ihtiyacı ortadan kaldırdığını belirtiyor. Bu "kod-politikası", 16 adet tek oyunculu TextArena oyununda Gemini-2.5-Pro ve GPT-5.2-High'dan daha yüksek ortalama ödül almıştır. Bu bulgular, özel bir kod harness'ı veya tüm politikayı sentezlemek için daha küçük bir model kullanmanın, çok daha büyük bir modelden daha iyi performans gösterebileceğini ve aynı zamanda daha uygun maliyetli olduğunu ortaya koymaktadır.
Küçük dil modellerinin otomatik kod sentezi yeteneği, büyük modellere kıyasla hem daha verimli hem de daha uygun maliyetli yapay zeka ajanları geliştirmek için yeni bir yol açıyor.