Büyük Dil Modelleri (LLM'ler), dilin oldukça düzensiz bilgi yoğunluğuna sahip olmasına rağmen tüm token'lara aynı düzeyde hesaplama uygular. Bu token-tabanlı, tekdüze hesaplama rejimi, yerel olarak tahmin edilebilir bölümlerde kapasite israf ederken, semantik olarak kritik geçişlere yetersiz hesaplama tahsis eder. Bu sorunu çözmek amacıyla, araştırmacılar Dinamik Büyük Konsept Modelleri (DLCM) adını verdikleri hiyerarşik bir dil modelleme çerçevesi önermektedir. DLCM, gizli temsillerden semantik sınırları öğrenir ve hesaplamayı token'lardan sıkıştırılmış bir konsept uzayına kaydırarak akıl yürütmeyi daha verimli hale getirir.
DLCM, önceden tanımlanmış dilbilimsel birimlere dayanmadan, değişken uzunluktaki konseptleri uçtan uca keşfeder. Bu hiyerarşik sıkıştırma yaklaşımı, modelin ölçeklenme davranışını temelden değiştirir. Araştırmacılar, token düzeyindeki kapasiteyi, konsept düzeyindeki akıl yürütme kapasitesini ve sıkıştırma oranını birbirinden ayıran ilk sıkıştırma farkındalıklı ölçeklenme yasasını tanıttı. Bu yasa, sabit FLOPs altında prensipli hesaplama tahsisine olanak tanır. Ayrıca, bu heterojen mimariyi istikrarlı bir şekilde eğitmek için, genişlikler ve sıkıştırma rejimleri arasında sıfır-shot hiperparametre transferini destekleyen ayrıştırılmış μP parametrizasyonu geliştirdiler.
Pratik bir senaryoda (R=4, yani konsept başına ortalama dört token'a karşılık gelir), DLCM, çıkarım hesaplamasının yaklaşık üçte birini daha yüksek kapasiteli bir akıl yürütme omurgasına yeniden tahsis eder. Bu sayede, eşleşen çıkarım FLOPs altında 12 sıfır-shot benchmark'ında ortalama %2.69'luk bir iyileşme sağlamıştır. Bu sonuçlar, DLCM'nin dil modellerinin verimliliğini ve akıl yürütme yeteneklerini önemli ölçüde artırma potansiyelini göstermektedir.
DLCM, dil modellerinin hesaplama verimliliğini artırarak ve daha etkili bir semantik akıl yürütme alanı sunarak yapay zeka modellerinin performansını ve ölçeklenebilirliğini önemli ölçüde iyileştiriyor.