Son yıllarda, dil modellerinin sonraki token'ı tahmin ederek dilbilgisi, anlambilim ve uzun menzilli yapıları içselleştirmesi gibi basit ve nedensel tahmin hedeflerinin şaşırtıcı derecede genel bir zeka ortaya çıkarabildiği görüldü. Bu yaklaşım, artık dilin ötesine geçerek dünya modellerine uzanıyor ve "dünya simülatörleri" adı verilen yeni bir yapay zeka türünün doğuşuna yol açıyor. Odyssey-2 gibi erken dönem bir dünya simülatörü, büyük miktarda video ve etkileşim verisi kullanarak dünyanın zaman içinde, kare kare nasıl geliştiğini tahmin etmek üzere eğitilmiş bir modeldir. Bu modeller, el yapımı kurallara dayanmak yerine, gözlemlerden doğrudan gizli durumu, dinamikleri ve neden-sonuç ilişkilerini öğrenir.
Neden sonraki kare tahmini veya sonraki token tahmini gibi ön eğitim görevleri bu kadar önemlidir? Çünkü bunlar, modellerin çok az yerleşik bilgiyle dünyanın nasıl çalıştığını doğrudan verilerden öğrenmesini gerektiren basit hedeflerdir. Ön eğitim, bir dizide (ister bir kare ister bir kelime olsun) neyin geleceğine dair belirsizliği azaltır. Bu belirsizlik azaldıkça, zekice yetenekler ortaya çıkmaya başlar. Dünya modelleri için de aynı mantık geçerlidir: Bir sonraki gözlemi tahmin etmek için modelin, dünyanın temel durumunu ve bu durumun zaman içinde nasıl geliştiğini çıkarması gerekir. Bunun için en iyi kaynak, büyük ölçekli, genel videolardır. Bu, modeli fizik, nedensellik ve kalıcılık hakkındaki yapıları öğrenmeye iter.
Bu durum, özellikle uzun vadeli senaryolarda daha da belirginleşir. Örneğin, bir kişi banyoyu doldurmaya başlar, birkaç dakika odadan ayrılır ve sonra geri döner. Banyo görüş alanı dışında olsa da, su seviyesi yükselmeye devam eder, sıcaklık değişir ve küvet sonunda taşabilir. Kişi geri döndüğünde mantıklı bir tahmin yapabilmek için modelin, dünyanın dahili bir durumunu sürdürmesi ve gözlemlenmediği süre boyunca bu durumun nasıl geliştiğini muhakeme etmesi gerekir. Dünya modellerinin gözlem yoluyla dünyayı öğrenmesini ve onlarca dakika veya saat boyunca tutarlı kalmasını istiyorsak, bu ufukları kapsayan eğitim verilerine ve eğitim prosedürlerine ihtiyacımız var.
Yapay zekanın sadece dili değil, fiziksel dünyayı da gözlemleyerek ve etkileşim kurarak öğrenme yeteneği, gelecekteki otonom sistemler ve genel yapay zeka için çığır açıcı bir potansiyel taşıyor.