Yapay zekanın uzun süredir devam eden zorluklarından biri, geniş bir fiziksel görev yelpazesini çözebilen ve yeni, bilinmeyen görevlere ve ortamlara genelleşebilen ajanlar geliştirmektir. Son zamanlarda popüler hale gelen bir yaklaşım, durum-eylem yörüngelerinden bir dünya modeli eğitmek ve ardından yeni görevleri çözmek için bunu bir planlama algoritmasıyla kullanmaktır. Planlama genellikle girdi uzayında yapılırken, yeni bir yöntem ailesi, dünya modelinin öğrenilmiş temsil uzayında optimizasyon yapan planlama algoritmalarını tanıtmıştır. Bu yaklaşım, ilgisiz detayları soyutlayarak daha verimli planlama vaat etmektedir.
Bu çalışma, bu aileden modelleri JEPA-WM'ler olarak tanımlamakta ve bu sınıfın algoritmalarını başarılı kılan teknik seçimleri araştırmaktadır. Araştırmacılar, bu aile içinde en uygun yaklaşımı bulmak amacıyla model mimarisi, eğitim hedefi ve planlama algoritması gibi çeşitli anahtar bileşenlerin kapsamlı bir incelemesini önermektedir. Hem simüle edilmiş ortamlar hem de gerçek dünya robotik verileri kullanılarak deneyler yapılmış ve bu bileşenlerin planlama başarısını nasıl etkilediği detaylı bir şekilde incelenmiştir.
Bulgularını birleştirerek, hem navigasyon hem de manipülasyon görevlerinde DINO-WM ve V-JEPA-2-AC gibi yerleşik iki temel modeli geride bırakan yeni bir model önermişlerdir. Bu çalışma, yapay zeka ajanlarının karmaşık fiziksel görevlerde daha etkili ve genellenebilir olmasını sağlamak için JEPA-WM'lerin potansiyelini ortaya koymaktadır. Araştırmanın kodları, verileri ve kontrol noktaları kamuya açık olarak sunulmuştur.
Bu araştırma, yapay zeka destekli robotların karmaşık fiziksel görevleri daha verimli ve genellenebilir bir şekilde yerine getirmesi için yeni ve üstün bir yöntem sunuyor.