Perplexity AI, trilyon parametreli modeller için takviyeli öğrenme (RL) sonrası eğitimde karşılaşılan ağırlık aktarımı sorununa çığır açan bir çözüm sunuyor. Asenkron RL ince ayarında, eğitim ve çıkarım (inference) ayrı GPU'larda çalışır ve her eğitim adımından sonra yeni ağırlıkların çıkarım düğümlerine aktarılması gerekir. Mevcut birçok framework, bu aktarım için saniyeler, hatta dakikalar süren gecikmeler yaşatırken, Perplexity AI bu süreyi 1 trilyon parametreli Kimi-K2 modeli için 256 eğitim GPU'sundan 128 çıkarım GPU'suna sadece 1.3 saniyeye indirmeyi başardı.
Bu başarı, RDMA WRITE adı verilen tek taraflı bir iletişim ilkelini kullanarak elde edildi. RDMA WRITE, kaynak GPU'nun doğrudan hedef GPU'nun belleğine yazmasını sağlayarak düşük gecikmeli, yüksek verimli ve sıfır kopyalı aktarımlar sunar. Bu yöntem, çıkarım motorunda herhangi bir değişiklik yapmadan uygulanabilir ve kodun yazılmasını ve bakımını kolaylaştırır. Yüksek seviyeli iş akışı, controller'ın parametre meta verilerini toplamasını, statik bir ağırlık aktarım çizelgesi oluşturmasını, bu çizelgeyi eğitim GPU'larına dağıtmasını ve her eğitim adımından sonra aktarımları başlatmasını içerir.
Ağırlık aktarımının verimli bir şekilde yürütülmesi için DeviceMesh ve Mesh Grupları gibi yapılar kullanılır. Eğitimdeki parametreler FSDP yerleşimlerine göre dağıtılırken, full_tensor() fonksiyonu tüm GPU'ların tam parametreyi yeniden oluşturmasına olanak tanır. Aktarım süreci, Host'tan cihaza bellek kopyalama (memcpy), parametre hazırlığı (projeksiyon birleştirme, niceleme), RDMA aktarımı ve küresel bir bariyer gibi aşamalara ayrılmış bir görev hattı (task pipeline) kullanır. Bu aşamalar zaman içinde üst üste binerek verimliliği artırır ve trilyon parametre ölçeğinde bile hızlı ve kesintisiz ağırlık aktarımını mümkün kılar.
Bu yenilik, büyük ölçekli yapay zeka modellerinin eğitim sonrası ince ayar süreçlerini dramatik bir şekilde hızlandırarak, daha hızlı model güncellemeleri ve daha dinamik öğrenme ortamları sağlar.