Yapay zeka (AI) yetenekleri hızla gelişirken, teknik adayları değerlendirmek de giderek karmaşık bir hal alıyor. Anthropic'in performans optimizasyon ekibinden Tristan Hume, şirketlerinin onlarca performans mühendisini işe almasına yardımcı olan ev ödevi testini (take-home test) defalarca yeniden tasarlamak zorunda kaldı. 2024'ün başından bu yana, ekipleri adayların simüle edilmiş bir hızlandırıcı için kodu optimize ettiği bir test kullanıyor. Ancak, piyasaya sürülen her yeni Claude modeli, bu testin geçerliliğini sorgulatarak yeniden tasarım ihtiyacını doğurdu. Örneğin, Claude Opus 4 belirli bir süre içinde çoğu insan adayı geride bırakırken, Claude Opus 4.5 en güçlü adayların bile performansına ulaşarak, insan becerilerini yapay zeka çıktısından ayırt etmeyi neredeyse imkansız hale getirdi.
Makale, orijinal test tasarımının nasıl ortaya çıktığını, her bir Claude modelinin bu testleri nasıl "aşındırdığını" ve testin Anthropic'in en yetenekli modellerinin yeteneklerinin önünde kalmasını sağlamak için alınan giderek daha yaratıcı yaklaşımları detaylandırıyor. Tristan Hume, yapay zeka destekli değerlendirmelerin sağlamlığını neyin artırdığı ve neyin azaltmadığı konusunda değerli dersler çıkardığını belirtiyor. Sınırsız süre verildiğinde en iyi insan performansının hala Claude'un başarabileceğini aştığını vurgulayan Anthropic, bu orijinal ev ödevi testini açık bir meydan okuma olarak yayınladı. Şirket, yapay zekanın ötesinde insan yaratıcılığını ve derinlemesine problem çözme yeteneğini ortaya çıkaracak yetenekli mühendisleri bulmanın yollarını aramaya devam ediyor.
Yapay zeka modellerinin hızla gelişmesi, teknik mülakatlarda insan yeteneğini doğru bir şekilde ölçmek için yeni ve yaratıcı yaklaşımlar gerektiriyor.