Ana Sayfa

Yapay Zeka Ajan Becerileri Test Edildi: Kendi Kendine Üretilenler Faydasız

1 dk okuma

Büyük Dil Modeli (LLM) ajanlarının çıkarım zamanında yeteneklerini artıran yapılandırılmış prosedürel bilgi paketleri olan Ajan Becerileri, hızla benimsenmelerine rağmen, gerçekten yardımcı olup olmadıklarını ölçmek için standart bir yöntem bulunmamaktadır. Bu boşluğu doldurmak amacıyla, araştırmacılar 11 farklı alanda 86 görevi içeren, özel olarak hazırlanmış beceriler ve deterministik doğrulayıcılarla eşleştirilmiş SkillsBench adlı bir kıyaslama aracı geliştirdi. Bu benchmark, ajan becerilerinin etkinliğini kapsamlı bir şekilde değerlendirmeyi hedefliyor.

Çalışma kapsamında, 7 farklı ajan-model konfigürasyonu, 7.308 deneme üzerinde test edildi. Her görev, beceri kullanılmadan, özel olarak hazırlanmış becerilerle ve ajanların kendi kendine ürettiği becerilerle olmak üzere üç farklı koşul altında değerlendirildi. Sonuçlar, özel olarak hazırlanmış becerilerin ortalama geçiş oranını 16.2 yüzde puanı artırdığını gösterse de, bu etkinliğin alanlara göre büyük farklılıklar gösterdiği (Yazılım Mühendisliği için +4.5pp'den Sağlık Hizmetleri için +51.9pp'ye kadar) ve 84 görevin 16'sında negatif etkiler görüldüğü belirlendi.

En çarpıcı bulgu ise, ajanların kendi kendine ürettiği becerilerin ortalama olarak hiçbir fayda sağlamaması oldu. Bu durum, modellerin kendi kullanacakları prosedürel bilgiyi güvenilir bir şekilde oluşturamadığını ortaya koyuyor. Ayrıca, 2-3 modülden oluşan odaklanmış becerilerin, kapsamlı dokümantasyondan daha iyi performans gösterdiği ve becerilerle donatılmış daha küçük modellerin, becerileri olmayan daha büyük modellerin performansını yakalayabileceği de tespit edildi.

İçgörü

Yapay zeka ajanlarının performansını artırmak için kullanılan becerilerin etkinliğini ölçen bir çalışma, özel olarak hazırlanmış becerilerin faydalı olduğunu ancak modellerin kendi kendine ürettiği becerilerin ortalama olarak hiçbir fayda sağlamadığını ortaya koyuyor.

Kaynak