Virtual Width Networks (VWN) adı verilen yeni bir framework, yapay zeka modellerinde daha geniş temsillerin sunduğu avantajları, gizli katman boyutunu artırmanın getirdiği karesel maliyetlere katlanmadan elde etmeyi hedefliyor. Geleneksel yöntemlerde modelin genişliğini artırmak, hesaplama maliyetlerini önemli ölçüde yükseltirken, VWN bu sorunu temsil genişliğini modelin ana omurga (backbone) genişliğinden ayırarak çözüyor. Bu ayrıştırma sayesinde, gömme (embedding) alanı genişletilirken, ana omurga üzerindeki hesaplama yükü neredeyse sabit tutulabiliyor. Bu yaklaşım, modellerin daha zengin iç temsiller geliştirmesine olanak tanırken, performans düşüşü veya aşırı maliyet artışı gibi dezavantajları ortadan kaldırıyor.
Yapılan büyük ölçekli deneylerde, VWN'nin etkinliği çarpıcı bir şekilde gözlemlendi. Sanal genişliğin 8 kat artırılması, optimizasyon sürecini bir sonraki token tahmini görevlerinde 2 kattan fazla, bir sonraki iki token tahmini görevlerinde ise 3 kat hızlandırdı. Bu performans artışı, modelin eğitim süresi boyunca daha da belirginleşiyor; kayıp (loss) farkı büyüdükçe ve yakınsama hızlanma oranı arttıkça VWN'nin avantajları daha da güçleniyor. Bu durum, VWN'nin sadece token verimliliği açısından değil, aynı zamanda ölçek büyüdükçe de giderek daha etkili olduğunu ortaya koyuyor.
Araştırmacılar ayrıca, sanal genişlik ile kayıp azaltma arasında yaklaşık olarak log-lineer bir ölçekleme ilişkisi tespit etti. Bu bulgu, büyük modellerin verimliliğini artırmak için sanal genişlik ölçeklendirmesini yeni bir boyut olarak keşfetmek adına önemli bir ampirik temel ve motivasyon sunuyor. VWN, özellikle büyük dil modelleri gibi yüksek hesaplama gerektiren alanlarda, performans ve maliyet dengesini optimize etmek için umut vadeden bir yöntem olarak öne çıkıyor.
Büyük dil modellerinin hesaplama maliyetlerini artırmadan performansını ve verimliliğini önemli ölçüde iyileştiren yeni bir mimari yaklaşım sunuyor.