Ana Sayfa

Tarayıcı Ajanları için LLM Karşılaştırma Kriteri: Açık Kaynak Benchmark

1 dk okuma

Browser Use ekibi, web otomasyonunda kullanılacak büyük dil modelleri (LLM) arasındaki performansı değerlendirme zorluğuna çözüm olarak açık kaynaklı bir benchmark geliştirdi. Şirket içinde, farklı LLM'ler ve ajan parametreleri arasında seçim yapmanın ve ajan performansını karşılaştırmanın karmaşıklığı, standartlaştırılmış ve tekrarlanabilir bir değerlendirme süitine olan ihtiyacı ortaya çıkardı. Bu amaçla, 600.000'den fazla test görevi çalıştırarak ajanlarını sürekli iyileştirmek için kapsamlı dahili araçlar oluşturdular ve şimdi bu deneyimlerini açık kaynaklı bir benchmark olarak paylaşıyorlar. Mevcut tarayıcı benchmark görev setlerinin güçlü ve zayıf yönleri dikkate alınarak, gerçek dünya senaryolarını yansıtmayan sentetik web sitelerinden kaçınıldı. Bunun yerine, doğrulanabilir bilgi araştırması ve çok adımlı süreçler içeren WebBench, Mind2Web 2, GAIA ve BrowseComp gibi kaynaklardan 80 görev seçildi. Ayrıca, iframe etkileşimleri ve sürükle-bırak gibi en zorlu tarayıcı etkileşimlerini test etmek amacıyla özel olarak tasarlanmış 20 görev daha eklendi. Toplamda 100 görevden oluşan bu set, hem doğrulanabilir hem de gerçek zamanlı görevleri kapsıyor. Görevlerin zorluk seviyesini dengelemek için, tüm görevler farklı LLM'ler, ajan ayarları ve framework'ler ile birden çok kez çalıştırıldı. Başarı durumu bir LLM yargıcı tarafından değerlendirildi ve çok kolay veya imkansız olduğu belirlenen görevler setten çıkarıldı. Geriye kalan görevler arasından en zorlu ve ilgi çekici olanlar elle seçilerek bağımsız olarak doğrulanabilirliği kontrol edildi. Bu yaklaşım, ajanların gerçek dünya web otomasyonu yeteneklerini doğru bir şekilde ölçmeyi hedefliyor.

İçgörü

Bu benchmark, geliştiricilere web otomasyonu için en uygun büyük dil modellerini seçme ve ajan performansını objektif bir şekilde değerlendirme konusunda kritik bir araç sunuyor.

Kaynak