ClaudePlaysPokemon projesi, Google'ın Gemini 2.5 Pro'nun Pokémon Blue'yu yenmesinin üzerinden altı aydan fazla zaman geçmesine rağmen Claude'un Pokémon Red'i hala tamamlayamamasıyla dikkat çekiyordu. Projenin yaratıcısı David Hershey'in nispeten müdahalesiz yaklaşımı ve basit aracı yapısı sayesinde, Claude'un yeteneklerini daha saf bir şekilde test ettiği belirtiliyordu. Claude'un önceki versiyonları, Team Rocket Hideout ve Erika'nın Spor Salonu gibi engellerde aylarca takılı kalmıştı. Ancak, yeni Claude Opus 4.5, bu engelleri aşarak önemli bir ilerleme kaydettiği izlenimini veriyor.
Opus 4.5'in en belirgin gelişimi "görüş" yeteneğinde yaşandı. Daha önceki LLM'ler Pokémon oynarken neredeyse kör durumdayken, Opus 4.5 artık kapıları, binaları (spor salonları, Pokémon merkezleri) ve önemli NPC'leri (Oak, Erika) ekranda belirdikleri anda tanıyabiliyor. Örneğin, Pokéball'ları bulmak veya doğru başlangıç Pokémon'unu seçmek gibi daha önce zorlayıcı olan görevler artık onun için önemsiz hale geldi. Bu, modelin çevresini algılama ve yorumlama kapasitesinde ciddi bir sıçramayı işaret ediyor.
Ancak, bu yeni görüş yeteneği kusursuz değil. Claude'un "dikkat" eksikliği, bu gelişimi gölgeleyebiliyor. Model, görüş alanındaki şeyleri "bakmıyorsa" sıklıkla görmezden geliyor. Hatta, mevcut hedefine yaklaştığında, görüş yeteneğine daha az güveniyor ve bazen kritik ilerleme yollarını tamamen göz ardı edebiliyor. Örneğin, bir noktada ilerlemek için tek yol olan ok işaretlerini (spinners) onlarca kez ziyaret etmesine rağmen fark edememesi, dikkat eksikliğinin önemli bir göstergesi olarak sunuluyor. Bu durum, Opus 4.5'in yeteneklerinin henüz AGI seviyesinde olmadığını, ancak belirli alanlarda kayda değer bir ilerleme kaydettiğini gösteriyor.
Claude Opus 4.5'in Pokémon Red'deki başarısı, büyük dil modellerinin görsel algı ve problem çözme yeteneklerindeki önemli ilerlemeyi gözler önüne seriyor.