Ana Sayfa

Ağaç Arama Distilasyonu ile Dil Modellerinde Akıl Yürütmeyi Geliştirmek

1 dk okuma

Oyun oynayan sinir ağları, AlphaZero gibi, ham politikayı bir arama mekanizmasıyla güçlendirerek ve bu daha güçlü, artırılmış politikayı ağa geri damıtarak insanüstü performans sergiler. Ancak, bu tür teknikler dil modellemesinde neden yaygın olarak kullanılmıyor? DeepSeek-R1 yazarları MCTS ile sınırlı başarı elde ettiklerini belirtirken, Finbarr Timbers bu sorunun nedenini, özellikle de UCT yerine pUCT seçiminde yatabileceğini öne sürmüştür. Bu makale, arama distilasyonunun dil modellerinin akıl yürütme yeteneğini gerçekten geliştirip geliştiremeyeceğini ve standart dil RL yöntemlerine (örn. GRPO) kıyasla nasıl performans gösterdiğini araştırmayı amaçlamaktadır.

Yazar, bu soruları incelemek için Qwen-2.5-1.5B-Instruct modeline akıl yürütme adımları boyunca MCTS uygulayarak daha güçlü yörüngeler aramış ve bunları çevrimiçi bir PPO döngüsü aracılığıyla modele geri damıtmıştır. Kombinatoryal bir aritmetik oyunu olan Countdown görevinde, damıtılmış model (arama mekanizması olmadan değerlendirildiğinde) %11.3'lük asimptotik bir ortalama@16 değerlendirme puanı elde etmiştir. Bu, CISPO için %8.4 ve best-of-N için %7.7'ye kıyasla önemli bir iyileşmedir. RL öncesi instruct modeline (%3.1) göre ise %8.2'lik bir artış söz konusudur. Bu düşük mutlak puanlar, 1.5B'lik küçük bir model üzerinde yapılan deneylerin ölçeğini yansıtmaktadır.

Başlangıçta GSM8K ortamını denemiş olsa da, GRPO ve MCTS arasında belirgin bir fark bulamadığı için Countdown oyununu tercih etmiştir. Countdown'ın kombinatoryal doğasının, paralel adaptif akıl yürütme ağaç aramasından daha fazla fayda sağlayacağı hipoteziyle hareket edilmiştir. Eğitim sırasında seyrek ödül (doğruluk için 0/1) kullanmanın kararsız eğitime yol açtığı ve bu nedenle yoğun bir ödül fonksiyonuna geçildiği belirtilmiştir. Ancak, değerlendirme hala seyrek ödül fonksiyonu kullanılarak yapılmaktadır. Bu çalışma, daha büyük modeller ve hesaplama bütçeleriyle gelecekteki araştırmalar için bir başlangıç noktası olmayı hedeflemektedir.

İçgörü

Ağaç arama distilasyonu ve PPO'nun birleşimi, dil modellerinin karmaşık akıl yürütme görevlerindeki performansını küçük ölçekli modellerde bile önemli ölçüde artırabileceğini gösteriyor.

Kaynak