Ana Sayfa

NNUE İçin Daha İyi Aktivasyon Fonksiyonları: Swish Deneyleri

1 dk okuma

NNUE (Neural Network Updated Evaluation) modellerinde aktivasyon fonksiyonlarının performans üzerindeki etkisi büyük önem taşıyor. Bu makale, Viridithas'ın NNUE mimarisinde kullanılan aktivasyon fonksiyonlarını iyileştirmeye yönelik yapılan deneyleri detaylandırıyor. Özellikle, L₁ ve L₂ katmanlarında geleneksel SCReLU (squared clipped ReLU) fonksiyonlarının yerine Swish, daha spesifik olarak Hard-Swish, fonksiyonunun kullanılması hedeflenmiş. İlk katmandaki (L₀) GLU varyantı korunurken, sonraki katmanlarda yapılan bu değişiklik, ağın öğrenme ve çıkarım süreçlerini optimize etme potansiyeli taşıyor.

Ancak, Hard-Swish'in entegrasyonu başlangıçta beklenmedik bir sorun yarattı: L₀ çıkış aktivasyonlarında seyreklik (sparsity) oranında önemli bir düşüş gözlemlendi. Viridithas'ın derin NNUE'leri, performans için L₁ katmanında seyrek matris çarpımına büyük ölçüde bağımlı olduğundan, bu düşüş çıkarım hızında ciddi bir kayba yol açtı. Hard-Swish'in yukarıdan sınırsız olması, aktivasyonların sınırsız büyümesine izin vererek daha yoğun aktivasyonlara neden olabileceği hipotezi ortaya atıldı. Bu durum, daha fazla nöronun bir araya gelerek bir aktivasyonu yukarı itmesini teşvik edebilir.

Neyse ki, bu yoğunluk sorununa doğrudan bir çözüm bulundu: aktivasyon yoğunluğunu cezalandırmak için kayıp fonksiyonuna ek bir terim, yani L₀ çıkışındaki aktivasyonların L₁ normunu minimize eden bir düzenlileştirme (regularisation) terimi eklendi. Bu düzenlileştirme ile eğitilen Hard-Swish ağı, seyreklik oranını düzenlileştirme uygulanmamış SCReLU ağlarının bile üzerine çıkararak performans sorununu tamamen ortadan kaldırdı. Sonuç olarak, Swish tabanlı ağın değerlendirme ölçeğinde daha pürüzsüz bir davranış sergilediği ve güç açısından iyileşmeler kaydettiği belirtiliyor.

İçgörü

NNUE modellerinde aktivasyon fonksiyonlarının dikkatli seçimi ve uygun düzenlileştirme tekniklerinin uygulanması, performans ve verimlilik açısından kritik iyileştirmeler sağlayabilir.

Kaynak