Ana Sayfa

Nvidia'dan Bellek Verimliliğini Artıran Qwen3-8B-DMS-8x Modeli

1 dk okuma

Nvidia, Qwen3-8B tabanlı yeni dil modeli Qwen3-8B-DMS-8x'i tanıttı. Bu model, çıkarım (inference) sırasında 8 kat sıkıştırma oranıyla Dinamik Bellek Seyreltme (Dynamic Memory Sparsification - DMS) teknolojisini entegre ediyor. DMS, özellikle uzun bağlamlı ve karmaşık akıl yürütme gerektiren yapay zeka üretimlerinde bellek ayak izini azaltarak işlem hacmini (throughput) ve gecikme süresini (latency) iyileştirmeyi hedefliyor. Bu teknoloji, her bir dikkat başlığı (attention head) için özel bir çıkarma politikası öğrenerek, son 512 jeton üzerindeki kayan pencere ile tam dikkat mekanizması arasında dinamik olarak geçiş yapıyor.

Qwen3-8B-DMS-8x, gelişmiş akıl yürütme yeteneklerine sahip, kompakt ve genel amaçlı bir büyük dil modeli (LLM) olarak öne çıkıyor. Temel amacı, çıkarım sırasında ölçeklenebilirliği artırmak ve anahtar-değer (KV) önbellek bellek tüketimini minimize etmektir. Model, 8.2 milyar parametreye sahip olup, Autoregressive Transformer mimarisi üzerine kuruludur ve Qwen3 ağını kullanır. Doğal bağlam uzunluğu 32,768 jeton iken, YaRN teknolojisi ile bu kapasite 131,072 jetona kadar genişletilebiliyor.

Model, NVIDIA Ampere, Blackwell ve Hopper gibi GPU hızlandırmalı sistemlerde en iyi performansı gösterecek şekilde optimize edilmiştir ve HuggingFace Transformers çalışma zamanı motoruyla uyumludur. Yalnızca araştırma ve geliştirme amaçlı, ticari olmayan kullanımlar için NVIDIA Lisansı altında sunulmuştur. Bu yenilik, yapay zeka modellerinin daha verimli ve daha geniş bağlamlarda çalışabilmesi için önemli bir adım teşkil ediyor.

İçgörü

Bu model, uzun bağlamlı yapay zeka uygulamalarında bellek kullanımını optimize ederek daha verimli ve ölçeklenebilir çözümlerin önünü açıyor.

Kaynak