Büyük dil modelleri (LLM'ler) geniş bağlam pencereleri sunsa da, insan belleğinin aksine, önceki hatalarını tekrarlama eğilimindedirler ve bağlamı kopyalayıp yapıştırmadan öğrenemezler. İnsanlar deneyimlerinden sezgisel olarak öğrenirken, LLM'ler genellikle tam hatırlamaya odaklanır. NVIDIA'nın son araştırması, bu temel farkı ele alarak, bağlamı eğitim verisi olarak kullanan ve test anında öğrenen modelleri mümkün kılan yeni bir yaklaşım sunuyor.
NVIDIA'nın tanıttığı uçtan uca test anında eğitim (TTT-E2E) formülasyonu, LLM'in okuduğu bağlamı bir sonraki token tahmini aracılığıyla doğrudan modelin ağırlıklarına sıkıştırmasını sağlıyor. Bu yöntem, uzun bağlamlı LLM araştırmalarındaki en temel sorunlardan biri olan bağlam uzunluğuyla ölçeklenme sorununa çığır açıcı bir çözüm getiriyor. Geleneksel Transformer modelleri kayıp (loss) açısından iyi ölçeklenirken gecikme (latency) sorunları yaşar; Mamba 2 gibi Tekrarlayan Sinir Ağları (RNN'ler) ise gecikmede başarılı olup kayıpta yetersiz kalır. TTT-E2E ise hem kayıp hem de gecikme açısından mükemmel ölçeklenebilirlik sergileyen tek yöntemdir.
TTT-E2E, 128K bağlam uzunluğunda en kötü performansı gösteren bir modeli en iyiye dönüştürerek kayıp oranında önemli bir iyileşme sağlıyor. Ayrıca, RNN'lere benzer şekilde, bağlam uzunluğundan bağımsız olarak sabit bir çıkarım gecikmesine sahip. Bu sayede, 128K bağlam için NVIDIA H100 GPU'da tam dikkat mekanizmasına sahip Transformer'lardan 2.7 kat, 2M bağlam için ise 35 kat daha hızlı çalışabiliyor. Bu sonuçlar, araştırma topluluğunun uzun bağlam sorununa temel bir çözüm bulma yolunda önemli bir adım attığını ve 2026'ya kadar kalıcı bir çözümün mümkün olabileceğini gösteriyor.
Büyük dil modellerinin bağlamdan öğrenme yeteneğini devrim niteliğinde geliştirerek, insan benzeri adaptasyon ve verimlilik sağlıyor.