Ana Sayfa

Satranç Motorlarının Şaşırtıcı Eğitim Yöntemleri

1 dk okuma

AlphaZero sonrası satranç motorları genellikle pekiştirmeli öğrenme (RL) ile eğitilirken, makale bunun her zaman gerekli olmadığını belirtiyor. Güçlü bir arama algoritmasıyla birleştirilmiş "kötü" bir model bile, arama olmadan "iyi" bir modelden çok daha üstün olabiliyor. Bu nedenle, güçlü bir motorun arama sonuçlarından damıtma (distillation) yöntemiyle yeni modeller eğitmek, oyun üretmekten (ki bu pahalıdır) çok daha verimli ve hatta daha iyi sonuçlar verebiliyor. lc0'ın BT4 modeli, RL döngüsüne sokulduğunda kötüleşirken, damıtma ile daha iyi performans göstermiş.

Arama sonuçlarından damıtmanın gücü, büyük dil modellerindeki (LLM) "best-of-n" yönteminden çok daha etkili. Bir satranç motorunun 50 pozisyon üzerinde model çalıştırması, yaklaşık 30 kat daha büyük bir modele eşdeğerken, LLM'lerde bu oran sadece 2 kat civarında. Makale ayrıca, çalışma zamanında (runtime) damıtma tekniğinin uygulandığını belirtiyor. Bu yöntemde, ağ, erken pozisyonları değerlendirdikten sonra arama sonuçlarına göre kendi değerlendirmelerini canlı olarak ayarlayarak adapte oluyor.

Satranç motorlarının temel amacı kazanmak olsa da, modeller genellikle pozisyon değerlendirme doğruluğuna göre eğitilir. lc0, bu farkı kapatmak için SPSA (Simultaneous Perturbation Stochastic Approximation) adında "çılgınca" bir teknik kullanıyor. Bu yöntemde, ağırlıklar rastgele yönlerde değiştiriliyor, birçok oyun oynanıyor ve daha fazla kazanan yöne doğru ilerleniyor. Herhangi bir gradyan olmamasına rağmen bu yöntem +50 Elo gibi önemli bir performans artışı sağlayabiliyor. Ancak, binlerce oyun ve yüzlerce pozisyon çıkarımı gerektirdiği için oldukça maliyetli. Bu durum, LLM'lerin önce yaklaşık bir hedefe göre uzun süre eğitilip, sonra daha pahalı ve sınırlı bir hedefe göre kısa süre eğitilmesine benzetiliyor. SPSA, sadece sinir ağı ağırlıkları için değil, C++ programındaki herhangi bir sayısal parametre için de uygulanabiliyor.

İçgörü

Satranç motorlarının eğitimindeki yenilikçi damıtma ve gradyansız optimizasyon teknikleri, yapay zeka modellerinin geliştirilmesinde geleneksel yöntemlerin ötesinde potansiyel yollar sunuyor.

Kaynak