Büyük Dil Modelleri (LLM) sağlayıcıları, önbelleğe alınmış girdi jetonları için normal jetonlara göre 10 kat daha uygun fiyatlar sunuyor ve uzun istemlerde gecikmeyi %85'e kadar azaltabiliyor. Ancak bu önbelleklemenin tam olarak neyi kapsadığı, sağlayıcı belgelerinde yeterince açıklanmıyor. Makale, bu indirim ve hızlanmanın ardındaki teknik sırrı, yani tam olarak neyin önbelleğe alındığını derinlemesine inceliyor. Yapılan testler, aynı istemin tekrar gönderilmesine rağmen farklı yanıtlar alındığını gösteriyor; bu da yanıtların değil, başka bir şeyin önbelleğe alındığı anlamına geliyor.
LLM'ler özünde, sayı dizilerini girdi olarak alan ve çıktı olarak bir sayı üreten devasa matematiksel fonksiyonlardır. Milyarlarca dikkatlice düzenlenmiş işlemden oluşan büyük bir grafiğe sahiptirler. Bu işlemler kabaca dört ana bölüme ayrılabilir. Önbelleklemenin gerçekleştiği yer, transformer mimarisinin 'attention' (dikkat) mekanizmasıdır. Bir LLM, bir istemi işlerken, jetonları gömülü hale getirir ve ardından bu gömülü verileri bir döngü içinde 'attention' ve 'feedforward' katmanlarından geçirir. Bu süreç, özel bir durdurma jetonu alınana kadar devam eder.
Önbellekleme, bu içsel hesaplamaların, özellikle 'attention' mekanizmasındaki ara sonuçların saklanmasıyla mümkün oluyor. Bu sayede, aynı istemin veya istemin bir kısmının tekrar işlenmesi gerektiğinde, bu ara sonuçlar yeniden hesaplanmak yerine doğrudan önbellekten çekilerek hem maliyetten hem de zamandan tasarruf sağlanıyor. Bu derinlemesine anlayış, LLM'lerin nasıl daha verimli ve ekonomik hale getirilebileceğini ortaya koyuyor.
Büyük Dil Modellerinde istem önbelleklemenin iç işleyişini anlamak, hem maliyetleri düşürmek hem de performansı artırmak için kritik öneme sahiptir.