Ana Sayfa

Hızlı Matris Ters Karekökü: Newton-Schulz Ötesi Polar Faktör Hesaplama

1 dk okuma

Makale, özellikle makine öğrenimi uygulamalarında kullanılan uzun matrisler (tall matrices) için ortonormal polar faktörün hızlı ve verimli bir şekilde hesaplanmasını ele almaktadır. Geleneksel Newton-Schulz iterasyonlarının ötesine geçerek, minimax polinomları, Jacobi önkoşullandırma ve çevrimiçi sertifikalar kullanarak bu faktörü hesaplamanın yeni bir yaklaşımını sunar. Bu hesaplama, Muon iyileştiricisinde (optimizer) momentum matrisinin tekil değerleri üzerindeki işaret fonksiyonunu yaklaştırmak için kritik öneme sahiptir.

Önerilen yöntem, "Gram-side polar factor" olarak adlandırılır ve temel olarak G ∈ ℝ^(m × n) şeklindeki uzun bir matris için polar faktörü hesaplamayı hedefler. Bu yaklaşım, B := GᵀG Gram matrisini oluşturarak başlar. Ardından, sadece n × n boyutundaki bu küçük matris üzerinde çalışarak B^(-1/2) değerinin bir yaklaşıklığı olan Z hesaplanır. Son olarak, U := GZ çarpımı ile polar faktör elde edilir. Bu strateji, Polar Express gibi mevcut yöntemlerin dikdörtgen matrisler için kullandığı yapısal avantajı, yani iteratif işlemleri daha küçük matris boyutunda yapmayı, daha da geliştirir.

Bu yeni yaklaşımın temel avantajları arasında, sadece iki dikdörtgen GEMM (Genel Matris Çarpımı) işlemi kullanması, iteratif hesaplamaların daha küçük n × n matrisler üzerinde yapılması sayesinde özellikle m ≫ n durumlarında önemli performans kazancı sağlaması yer almaktadır. Ayrıca, bf16 formatında sayısal kararlılık sunarken (gerektiğinde fp32 biriktirme ile), geri dönen faktörün tekil değerlerinin 1'e yakın olduğunu çevrimiçi olarak doğrulayan güvenilir bir sertifika mekanizması sağlaması da önemli bir yeniliktir. Bu sertifikasyon, Gram kalıntısı (E = BZ² - I) üzerinden yapılan bir kontrol ile gerçekleştirilir ve doğrudan dikdörtgen iterasyonlara göre daha güçlü bir güvence sunar.

İçgörü

Bu yöntem, makine öğrenimi optimizasyon algoritmalarında matris ters karekökü hesaplamalarını hızlandırarak ve sayısal kararlılığı artırarak model eğitimini daha verimli hale getiriyor.

Kaynak