Ana Sayfa

Spekülatif Spekülatif Çözümleme (SSD): LLM Çıkarımını Hızlandırmanın Yeni Yolu

1 dk okuma

Autoregresif çözümleme, doğal dil işleme modellerinde token'ları sırayla ürettiği için çıkarım hızını kısıtlayan temel bir darboğazdır. Bu sıralı yapı, özellikle büyük dil modellerinde (LLM'ler) gecikmeye yol açar. Bu sorunu hafifletmek amacıyla geliştirilen speculative decoding (spekülatif çözümleme) yöntemi, daha hızlı bir draft model (taslak model) kullanarak gelecekteki token'ları tahmin eder ve ardından bu tahminleri daha yavaş olan target model (hedef model) ile tek bir ileri geçişte paralel olarak doğrular. Bu yaklaşım, çıkarım hızını önemli ölçüde artırmıştır. Ancak, speculative decoding'in kendisi de spekülasyon ve doğrulama aşamaları arasında sıralı bir bağımlılığa sahiptir, bu da tam paralelleşmeyi engeller.

"Speculative Speculative Decoding" (SSD) adı verilen yeni bir yöntem, bu sıralı bağımlılığı ortadan kaldırarak spekülasyon ve doğrulama işlemlerini daha da paralelleştirmeyi hedefler. SSD'nin temel prensibi, bir doğrulama işlemi devam ederken, draft modelin olası doğrulama sonuçlarını tahmin etmesi ve bu tahminlere göre önceden spekülasyonlar hazırlamasıdır. Eğer gerçek doğrulama sonucu, taslak modelin önceden tahmin ettiği kümelerden birinde yer alırsa, hazırlanan spekülasyon anında geri döndürülebilir. Bu sayede, drafting (taslak oluşturma) maliyeti tamamen ortadan kalkar ve işlem hızı daha da artırılır.

Makale, SSD'nin ortaya çıkardığı üç temel zorluğu tanımlamakta ve her birini çözmek için prensipli yöntemler önermektedir. Bu yöntemlerin birleşimiyle optimize edilmiş bir SSD algoritması olan Saguaro geliştirilmiştir. Yapılan testlerde Saguaro, optimize edilmiş speculative decoding yöntemlerine göre 2 kata kadar, standart autoregresif çözümlemeye göre ise açık kaynak inference engine'leri (çıkarım motorları) ile 5 kata kadar daha hızlı performans göstermektedir. Bu yenilik, büyük dil modellerinin çıkarım hızını artırarak daha verimli ve hızlı uygulamaların önünü açmaktadır.

İçgörü

Büyük dil modellerinin çıkarım hızını katlayarak artırarak daha verimli ve gerçek zamanlı uygulamaların önünü açıyor.

Kaynak