AutoHarness: LLM Ajanları İçin Otomatik Kod Desteği

Büyük dil modelleri (LLM'ler) ajan olarak kullanıldığında, genellikle çevresel kurallara aykırı veya suboptimal eylemler gerçekleştirebilirler. Örneğin, yakın zamanda düzenlenen Kaggle GameArena satranç yarışmasında, Gemini-2.5-Flash'ın kayıplarının %78'i yasa dışı hamlelerden kaynaklanmıştır. Bu tür hataları önlemek için genellikle LLM'lerin etrafına manuel olarak "harness" adı verilen kodlar yazılır.

AutoHarness adlı yeni bir çalışma, Gemini-2.5-Flash'ın çevreden gelen geri bildirimlerle iteratif kod iyileştirmesi yaparak bu tür kod harness'larını otomatik olarak sentezleyebildiğini göstermektedir. Bu yöntem, 145 farklı TextArena oyununda (hem tek oyunculu hem de iki oyunculu) tüm yasa dışı hamleleri engellemeyi başarmıştır. Sonuç olarak, daha küçük olan Gemini-2.5-Flash modeli, Gemini-2.5-Pro gibi daha büyük modellerden daha iyi performans göstermiştir.

Araştırma, tekniği daha da ileriye taşıyarak Gemini-2.5-Flash'ın tüm politikayı kod olarak üretebildiğini ve böylece karar verme anında LLM kullanımına olan ihtiyacı ortadan kaldırdığını belirtiyor. Bu "kod-politikası", 16 adet tek oyunculu TextArena oyununda Gemini-2.5-Pro ve GPT-5.2-High'dan daha yüksek ortalama ödül almıştır. Bu bulgular, özel bir kod harness'ı veya tüm politikayı sentezlemek için daha küçük bir model kullanmanın, çok daha büyük bir modelden daha iyi performans gösterebileceğini ve aynı zamanda daha uygun maliyetli olduğunu ortaya koymaktadır.

AutoHarness: LLM Ajanları İçin Otomatik Kod Desteği

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

AutoHarness: LLM Ajanları İçin Otomatik Kod Desteği

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış