Ana Sayfa

Anthropic'in Orijinal Performans Görevi Açık Kaynak Oldu

1 dk okuma

Yapay zeka alanının önde gelen şirketlerinden Anthropic, modellerinin performansını değerlendirmek için kullandığı orijinal "take-home" görevini açık kaynak olarak yayınladı. Bu görev, Claude Opus 4.5'in sadece iki saat içinde insanlardan daha iyi performans göstermeye başlamasından önceki döneme ait bir değerlendirme aracıydı. Artık geliştiriciler, sınırsız süre tanınarak Claude Opus 4.5'in rekorlarını kırmaya çalışabilirler. Görev, simüle edilmiş bir makineden alınan saat döngüleri (clock cycles) cinsinden ölçülen performans iyileştirmelerini hedefliyor ve yapay zeka modellerinin verimliliğini artırmaya odaklanıyor.

Repo, çeşitli Claude modellerinin farklı koşullar altında elde ettiği performans skorlarını detaylı bir şekilde listeliyor. Örneğin, Claude Opus 4.5, 2 saatlik bir test-time compute harness'ta 1579 döngüye ulaşırken, 11.5 saatlik bir çalışmayla bu değeri 1487 döngüye düşürmüş. En iyi insan performansına yakın olan Claude Opus 4.5'in gündelik bir Claude Code oturumundaki performansı ise 1790 döngü olarak belirtiliyor. Geliştiricilerin temel amacı, Claude Opus 4.5'in lansmandaki en iyi performansı olan 1487 döngünün altına inerek kendi optimizasyon yeteneklerini kanıtlamak.

Bu hedefe ulaşanlar, kodlarını (ve tercihen özgeçmişlerini) Anthropic'e göndererek potansiyel iş görüşmeleri için değerlendirilme fırsatı bulabilirler. Performanslarını test etmek isteyenler için python tests/submission_tests.py komutuyla hangi eşikleri geçtiklerini kontrol etme imkanı sunuluyor. Bu girişim, yapay zeka optimizasyonu ve performans mühendisliği alanında yeteneklerini sergilemek isteyenler için önemli bir fırsat sunarak, sektördeki yenilikçi çözümlerin ortaya çıkmasına katkıda bulunmayı amaçlıyor.

İçgörü

Anthropic'in performans görevini açık kaynak yapması, yapay zeka modellerinin optimizasyonu ve performans mühendisliği alanında yetenekli geliştiricileri keşfetmek için benzersiz bir fırsat sunuyor.

Kaynak