Büyük Dil Modelleri (LLM) çıkarım (inference) süreçleri, özellikle temelini oluşturan Transformer modelinin otoregresif Çözümleme (Decode) aşaması nedeniyle oldukça zorludur. Bu durum, LLM çıkarımını model eğitiminden (training) temelden farklı kılmaktadır. Son yapay zeka trendleriyle birlikte bu zorluklar daha da artmış ve birincil engellerin işlem gücü (compute) yerine bellek ve ara bağlantı (interconnect) olduğu ortaya çıkmıştır. LLM'lerin giderek büyümesi ve karmaşıklaşması, her bir token'ın üretimi için model parametrelerine tekrar tekrar erişilmesini gerektirir. Bu tekrarlayan bellek erişimleri, mevcut donanım mimarilerinde darboğazlara yol açarak çıkarım hızını ve verimliliğini düşürmektedir. Özellikle veri merkezlerindeki yapay zeka uygulamaları için bu durum kritik öneme sahiptir.
Bu temel zorlukların üstesinden gelmek amacıyla dört ana mimari araştırma fırsatı öne çıkarılmaktadır. İlk olarak, Yüksek Bant Genişlikli Flash (High Bandwidth Flash) teknolojisi, HBM benzeri bant genişliği sunarken bellek kapasitesini 10 kat artırma potansiyeli taşımaktadır. İkinci olarak, Belleğe Yakın İşleme (Processing-Near-Memory) ve 3D bellek-mantık istifleme (3D memory-logic stacking) teknikleri, yüksek bellek bant genişliği sağlayarak veri transferi gecikmelerini azaltmayı hedeflemektedir. Son olarak, düşük gecikmeli ara bağlantı (low-latency interconnect) çözümleri, farklı işlem birimleri arasındaki iletişimi hızlandırarak genel çıkarım performansını artırmayı amaçlamaktadır. Bu araştırma alanları, LLM'lerin gelecekteki donanım gereksinimlerini karşılamak ve daha verimli çalışmasını sağlamak için kritik öneme sahiptir.
Makale, odak noktasını veri merkezi yapay zeka uygulamalarına ayırsa da, önerilen çözümlerin mobil cihazlar için de uygulanabilirliğini gözden geçirmektedir. Bu, LLM teknolojilerinin sadece büyük ölçekli sunucularda değil, aynı zamanda günlük kullandığımız akıllı telefonlar ve diğer taşınabilir cihazlarda da yaygınlaşmasının önünü açabilecek potansiyel çözümler sunmaktadır. Bellek ve ara bağlantı kısıtlamalarının aşılması, LLM'lerin daha geniş bir yelpazede, daha hızlı ve enerji verimli bir şekilde kullanılabilmesi için temel bir adımdır.
Büyük Dil Modellerinin (LLM) çıkarım performansını artırmak için bellek ve ara bağlantı kısıtlamalarını aşmaya yönelik yenilikçi donanım mimarileri öneriyor.