HySparse, tam dikkat (full attention) katmanlarını seyrek dikkat (sparse attention) katmanlarıyla birleştiren yenilikçi bir hibrit mimaridir. Bu mimari, mevcut seyrek dikkat yöntemlerinin iki temel sınırlamasını ortadan kaldırmayı hedeflemektedir. Geleneksel yaklaşımlar, önemli belirteçleri (token) tahmin etmek için genellikle ek ve karmaşık ve potansiyel olarak suboptimal performans sunan vekil yöntemlere başvururken, HySparse bu sorunu doğrudan önceki tam dikkat katmanını bir "oracle" (kahin) olarak kullanarak çözüyor. Bu sayede, hangi belirteçlerin önemli olduğunu daha doğru ve verimli bir şekilde belirliyor.
İkinci olarak, mevcut seyrek dikkat tasarımları genellikle hesaplama maliyetini düşürse de, KV önbellek (KV cache) kullanımında önemli bir tasarruf sağlayamıyordu. HySparse, seyrek dikkat katmanlarının tam dikkat katmanının KV önbelleğini yeniden kullanmasına olanak tanıyarak hem hesaplama yükünü hem de bellek tüketimini önemli ölçüde azaltıyor. Bu, özellikle büyük dil modellerinde (LLM) bellek verimliliği açısından kritik bir gelişmedir.
HySparse'ın etkinliği, hem 7 milyar parametreli yoğun (dense) hem de 80 milyar parametreli MoE (Mixture-of-Experts) modeller üzerinde yapılan testlerle kanıtlanmıştır. Tüm senaryolarda, HySparse hem tam dikkat hem de hibrit SWA taban çizgilerine göre tutarlı bir şekilde daha iyi performans göstermiştir. Özellikle 49 katmanlı 80 milyar parametreli MoE modelinde, sadece 5 katmanın tam dikkat kullanmasına rağmen, HySparse önemli performans artışları sağlarken KV önbellek depolamasını neredeyse 10 kat azaltmayı başarmıştır. Bu sonuçlar, HySparse'ın büyük ölçekli yapay zeka modellerinin eğitim ve çıkarım süreçlerinde ciddi verimlilik kazanımları sunabileceğini göstermektedir.
Bu mimari, büyük dil modellerinde hesaplama ve bellek verimliliğini artırarak yapay zeka uygulamalarının daha hızlı ve düşük maliyetli çalışmasına olanak tanıyor.