Büyük Dil Modellerinin (LLM) değerlendirilmesi genellikle "görev tabanlı" testlere odaklanır; bu testler modellerin belirli soruları veya problemleri çözme yeteneğini ölçer. Ancak bu yaklaşım, modellerin bir giriş/çıkış sistemi olarak işlevini doğrulasa da, zekanın doğasını derinlemesine incelemede yetersiz kalır. Bu makale, LLM'lerin zekasını "ne yaptığını gör" yaklaşımıyla anlamayı amaçlayan yeni bir "görevsiz" test yöntemini tanıtıyor.
Deneyde, LLM'lere on tur boyunca belirli sayılarda "tap" kelimesi gönderiliyor. Bu "tap" sayıları Fibonacci, asal sayılar, kareler gibi önceden belirlenmiş matematiksel dizileri takip ediyor. Amaç, modellerin bu uyarıcılara nasıl tepki verdiğini ve bir soru veya görev olmamasına rağmen altta yatan örüntüyü fark edip etmediğini gözlemlemek. Bu örüntüyü fark etme yeteneği, zekanın ayrı bir özelliği olarak değerlendiriliyor, çünkü bir tür ilgi ve anlama arzusunu gerektiriyor.
On farklı LLM üzerinde yapılan bu deneylerde üç ana davranış gözlemlendi. Modellerin çoğu, ne olduğunu tahmin etmeye çalıştı ve etkileşimi bir sohbet yerine eğlenceli bir oyun gibi ele aldı; örneğin Claude ve Gemini "tap" kelimesi üzerinden su temalı şakalar yaparak "Easter Egg" benzeri davranışlar sergiledi. OpenAI'nin GPT 5.2 modeli ise bu davranışlardan farklılaşarak daha ciddi ve mekanik bir yaklaşım sergiledi, tahmin veya oyuna girmedi. Deepseek gibi bazı modeller ise örüntüyü anlamak için derinlemesine düşünme ve hatta dil değiştirme gibi ilginç tepkiler verdi. Bu çalışma, LLM'lerin görev tabanlı testlerin ötesinde, spontane tepkileri ve örüntü tanıma yetenekleri üzerinden zekalarının farklı yönlerini ortaya koyuyor.
Bu araştırma, Büyük Dil Modellerinin zekasını geleneksel görev tabanlı testlerin ötesinde, spontane tepkiler ve örüntü tanıma yetenekleri üzerinden değerlendirmeye yönelik yenilikçi bir bakış açısı sunuyor.