İnternet dünyasının en üretken yapay zeka şüphecilerinden Gary Marcus'un Substack platformunda yayımladığı 474 gönderi, "Marcus AI Claims Dataset" projesi kapsamında detaylı bir analize tabi tutuldu. Mayıs 2022'den bu yana yapay zekanın sınırlamaları, sektörü inşa eden şirketler ve geleceği hakkında ortaya attığı 2.218 test edilebilir iddia, 2 Mart 2026 itibarıyla mevcut kanıtlar ışığında puanlandı. Bu kapsamlı çalışma, Marcus'un iddialarının %59,9'unun kanıtlarla desteklendiğini, %33,7'sinin karmaşık olduğunu ve yalnızca %6,4'ünün çeliştiğini ortaya koydu. Bu oranlar, her iki tarafın da genellikle beklediğinden farklı bir tablo çiziyor.
Marcus'un en başarılı çalışmaları, spesifik ve teknik konulara odaklandığında ortaya çıkıyor. Örneğin, büyük dil modellerinin (LLM) güvenlik açıkları konusundaki iddialarının %100'ü, Sora video teknolojisinin güvenilmezliği hakkındaki iddialarının %90'ı ve ajanların üretim için henüz erken olduğu yönündeki iddialarının %88'i kanıtlarla tamamen desteklendi. Bu üç alanda, Marcus'un hiçbir iddiası mevcut kanıtlarla çelişmedi. Ancak, piyasa tahminleri konusunda performansı düşüyor. "GenAI balonunun patlayacağı" yönündeki iddialarının %27'si çelişirken, bu alan onun en kötü performans gösteren kümesi oldu. İlginç bir şekilde, en çok çelişen iddialarını içeren "balon" kümesi hakkında, en çok desteklenen "halüsinasyon" kümesine kıyasla daha fazla yazı yazdı.
Veri seti, iki farklı LLM (Claude Code ve Codex) kullanılarak oluşturuldu. Claude Code, iddia düzeyinde 2.218 bireysel iddia ve 54 küme belirlerken, Codex 164 tema ve 11 kategori ile daha tematik bir yaklaşım benimsedi. Daha sonra, hibrit bir uzlaştırma katmanı, her iki çıktıdan tek bir birleşik görünüm oluşturdu. Tüm kararların LLM'ler tarafından puanlandığı ve insan doğrulaması yapılmadığı belirtiliyor; bu nedenle, belirli iddiaları alıntılamadan önce kaynak gönderilerle karşılaştırma yapılması öneriliyor.
Gary Marcus'un yapay zeka hakkındaki iddialarının büyük bir veri setiyle analiz edilmesi, onun teknik konulardaki eleştirilerinin sağlamlığını gösterirken, piyasa tahminlerindeki zayıflığını ve eleştirel söyleminin hangi alanlarda daha etkili olduğunu ortaya koyuyor.