"Scaffolding to Superhuman: How Curriculum Learning Solved 2048 and Tetris" başlıklı makale, oyun ajanlarını "süper insan" seviyesine taşımak için müfredat öğreniminin (curriculum learning) nasıl kullanıldığını detaylandırıyor. Yazar, PufferLib adlı hızlı bir pekiştirmeli öğrenme (RL) kütüphanesi kullanarak, 2048 ve Tetris gibi karmaşık oyunlarda devasa arama tabanlı çözümleri geride bırakan ajanlar eğittiğini anlatıyor. PufferLib'in C tabanlı ortamları, saniyede 1 milyondan fazla adım işleyerek hızlı iterasyon ve yüzlerce hiperparametre denemesi yapılmasına olanak tanıyor. Bu hız, RL eğitimini "rastgele deneme" yaklaşımından sistematik bir arama sürecine dönüştürüyor.
Eğitim sürecinin temel tarifinde üç ana unsur vurgulanıyor: gözlemleri zenginleştirmek (policy'ye gerekli bilgiyi sağlamak), ödülleri ayarlamak (öğrenme sinyalini şekillendirmek) ve müfredatı tasarlamak (ajanın ne zaman ne deneyimleyeceğini kontrol etmek). Ağ ölçeklendirmesinin ise bu adımlardan sonra gelmesi gerektiği belirtiliyor, çünkü daha büyük ağlar eğitimi yavaşlatıyor. Yazar, 200'den fazla deneme yaparak ve Protein adlı maliyet-farkındalıklı bir hiperparametre optimizasyon çerçevesi kullanarak en iyi sonuçlara ulaştığını ifade ediyor.
2048 oyununda, yazarın 75 dakikada eğitilen 15MB'lık policy'si, terabaytlarca son oyun tablosu kullanan önceki en iyi arama çözümünü geride bırakarak %14.75 oranında 65536 karosu elde etme başarısı gösterdi. Önceki çözümün %8.4 olan bu oranı, müfredat öğrenimi ve dikkatli gözlem tasarımı sayesinde önemli ölçüde artırıldı. Bu başarı, karmaşık oyun problemlerini çözmede hızlı iterasyon, optimize edilmiş araçlar ve stratejik öğrenme tasarımı kombinasyonunun gücünü ortaya koyuyor.
Müfredat öğrenimi ve optimize edilmiş pekiştirmeli öğrenme araçları, karmaşık oyunlarda insanüstü performans gösteren yapay zeka ajanlarının hızlı ve verimli bir şekilde eğitilmesini mümkün kılıyor.