Yapay Zeka Modelleri "Oto Yıkama Testi"nde Neden Başarısız Oluyor?

Opper.ai tarafından yapılan "Oto Yıkama Testi", önde gelen 53 yapay zeka modelinin basit bir mantık muhakemesi görevinde nasıl zorlandığını ortaya koydu. Test sorusu şuydu: "Arabamı yıkamak istiyorum. Oto yıkama 50 metre uzakta. Yürümeli miyim yoksa arabayla mı gitmeliyim?" İnsanlar için bariz olan cevap, arabanın oto yıkamaya gitmesi gerektiği için "arabayla gitmek" iken, çoğu yapay zeka modeli bu basit mantığı kurmakta başarısız oldu. Tek seferlik denemelerde bile 53 modelden 42'si "yürümeliyim" cevabını verdi. Bu modeller, 50 metrelik mesafenin kısalığına, yakıt tasarrufuna ve çevresel faydalara odaklanarak, asıl sorunun arabanın oraya ulaşması gerektiği gerçeğini tamamen gözden kaçırdı. Hatta bazı modeller (Perplexity'nin Sonar ve Sonar Pro'su) doğru cevabı tamamen yanlış ve absürt gerekçelerle verdi.

Tek seferlik testte yalnızca 11 model doğru cevabı verebildi: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5 ve GLM-5. Ancak, modellerin tutarlılığını ölçmek için her bir model 10 kez tekrar test edildiğinde sonuçlar daha da kötüleşti. İlk testte başarılı olan 11 modelden sadece 5'i, yani Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro ve Grok-4, her seferinde doğru cevabı verebildi. Diğer modeller, ara sıra doğru cevap verse de tutarlı bir performans sergileyemedi.

Bu test, en gelişmiş yapay zeka modellerinin bile basit, sağduyuya dayalı muhakeme yeteneğinde ciddi eksiklikler yaşadığını ve tutarlılık sorunları olduğunu gösteriyor. Modellerin genellikle mesafeye odaklanıp asıl bağlamı (arabanın kendisinin oto yıkamaya gitmesi gerektiğini) kaçırması, mevcut yapay zeka sistemlerinin gerçek dünya senaryolarını anlamada ve yorumlamada hala önemli zorluklar yaşadığını ortaya koyuyor. Bu durum, yapay zeka uygulamalarının güvenilirliği ve pratik kullanımı açısından önemli çıkarımlar barındırıyor.

Yapay Zeka Modelleri "Oto Yıkama Testi"nde Neden Başarısız Oluyor?

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Yapay Zeka Modelleri "Oto Yıkama Testi"nde Neden Başarısız Oluyor?

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış