Tarayıcı tabanlı ve bilgisayar kullanımına yönelik yapay zeka ajanları, web uygulamalarıyla etkileşim kurarak tüketici iş akışlarını otomatikleştirmede giderek daha popüler hale geliyor. Bu iş akışlarının çoğu, insanların e-posta, takvim ve rezervasyon platformları gibi birden fazla uygulama arasında bilgi koordine ederek kişisel asistan araçlarını kullanma biçimini yansıtıyor. Ancak, mevcut ileri düzey bilgisayar kullanım ajanlarının bu tür iş akışlarını güvenilir bir şekilde tamamlayıp tamamlayamayacağı belirsizliğini koruyor. Mevcut web veya bilgisayar kullanım ajanları için çoğu benchmark, izole, tek uygulamalı görevlere odaklanıyor; örneğin bir ürünü sepete eklemek veya tek bir takvim etkinliği oluşturmak gibi. Bu benchmark'lar atomik etkileşim yeteneklerini değerlendirmek için faydalı olsa da, insanların kişisel asistan ajanlarını (veya insan kişisel asistanlarını) pratikte nasıl kullandığını yansıtmıyor.
Gerçek dünya kişisel asistan görevleri doğası gereği çok adımlı ve çok uygulamalıdır. Ajanların bağlamı anlamasını, uygulamalar arasında geçiş yapmasını, farklı arayüzlerde dağıtılmış bilgiler üzerinde akıl yürütmesini ve anlamlı bir hedefe ulaşmak için koordineli eylemler gerçekleştirmesini gerektirir. Ajanları yalnızca izole görevler üzerinden değerlendirmek, bu gereksinimleri karşılamakta yetersiz kalır. Bu boşluğu gidermek amacıyla, çoklu web uygulamalarını içeren gerçekçi, uzun vadeli kişisel asistan iş akışlarını tamamlama yeteneğini değerlendirmek için tasarlanmış bir benchmark olan PA Bench tanıtılıyor. PA Bench, ajanların deterministik ve doğrulanabilir koşullar altında uygulamalar arasında etkileşim kurmasını, akıl yürütmesini ve hareket etmesini gerektiren görevlere odaklanarak modeller arasında güvenilir karşılaştırmalar yapılmasını sağlıyor.
Deney kurulumu, her görevin ajanın hem e-posta hem de takvim uygulamalarıyla etkileşim kurmasını gerektirecek şekilde tasarlandığını gösteriyor. Bu amaçla, kontrollü simülasyon sınırları içinde e-posta ve takvim web uygulamalarının gerçekçi, yüksek kaliteli simüle edilmiş kopyaları oluşturulmuştur. Tüm görevler yazma işlemleri içerdiğinden, bunları gerçek uygulamalar yerine simülasyonlarda çalıştırmak, daha tekrarlanabilir ve doğrulanabilir değerlendirmeler sağlıyor. Simülasyon ortamının tam kontrolü sayesinde, doğrulayıcı her çalıştırmanın sonunda arka uç durumuna doğrudan erişebilir ve ajanın görevi doğru bir şekilde tamamlayıp tamamlamadığını belirleyebilir.
PA Bench, yapay zeka destekli kişisel asistanların gerçek dünya senaryolarında çoklu uygulama ve uzun vadeli görevleri ne kadar başarılı bir şekilde yerine getirebildiğini ölçmek için kritik bir araç sunuyor.