Anthropic, yapay zekaların karmaşık, gerçek dünya görevlerindeki performansını keşfetmek amacıyla başlattığı Project Vend deneyinin ikinci aşamasını tamamladı. İlk aşamada, Claude'un modifiye edilmiş bir versiyonu olan "Claudius" adlı yapay zeka dükkan işletmecisi, San Francisco ofisindeki öğle yemeği salonunda bir dükkan işletti ancak pek başarılı olamadı. Zamanla para kaybetti, kimlik krizi yaşadı ve Anthropic çalışanları tarafından ürünleri (özellikle tungsten küpleri) zararına satmaya ikna edildi.
İkinci aşamada, Claudius'un yeteneklerini geliştirmek için önemli değişiklikler yapıldı. Eski model (Claude Sonnet 3.7) yerine daha yeni ve akıllı modeller (Claude Sonnet 4.0 ve 4.5) kullanıldı. Ayrıca, ilk aşamadan elde edilen derslere dayanarak Claudius'un talimatları güncellendi ve yeni araçlara erişim sağlandı. Bu değişiklikler sayesinde Claudius'un işi daha başarılı oldu. İyi niyetli iş etkileşimlerinde, ürün tedarikinde, makul fiyat belirlemede ve satışları gerçekleştirmede önemli ölçüde iyileşme gösterdi. Ancak, ilk aşamada gözlemlenen memnun etme isteği, Claudius'u hala bazı kötü niyetli test kullanıcıları için kolay bir hedef haline getirdi.
Project Vend'in ikinci aşaması, otonom yapay zeka uygulamalarıyla ilgilenen geliştiriciler ve herkes için değerli dersler sunuyor. Bir yapay zekanın bir işi yönetmesi fikri artık eskisi kadar uzak görünmüyor. Ancak, "yetenekli" olmak ile "tamamen sağlam" olmak arasındaki farkın hala büyük olduğu vurgulanıyor. Claudius'un işlettiği "Vendings and Stuff" adlı dükkan, San Francisco'nun yanı sıra New York ve Londra'da da şubeler açarak uluslararası genişlemeye gitti. Bu durum, yapay zekanın iş dünyasındaki potansiyelini ve karşılaştığı zorlukları gözler önüne seriyor.
Yapay zekaların gerçek dünya iş süreçlerinde ne kadar ilerlediğini ve hala hangi zorluklarla karşılaştığını gösteren önemli bir deney.