Ana Sayfa

LLM'lerde Dikkat Mekanizmasının Kalbi: Q, K, V Matrisleri

1 dk okuma

Büyük Dil Modelleri'ndeki (LLM) dikkat mekanizmasının temelinde Query (Sorgu), Key (Anahtar) ve Value (Değer) matrisleri yer alır. Bu matrisler, transformer modellerinin girdi metninin farklı bölümlerine nasıl "dikkat" ettiğini belirler. İnsan beyni bir cümleyi okurken ("Kedi minderin üzerine oturdu çünkü rahattı" örneğindeki "o" kelimesinin "minder"e atıfta bulunması gibi) bağlamı anlamak için ilgili kelimelere odaklanır. Sinir ağlarında da benzer bir mekanizmaya ihtiyaç duyulur. Geleneksel yinelemeli sinir ağları (RNN'ler) dizileri birer birer işlerken, transformer mimarisi 2017'de bu yaklaşımı değiştirerek yinelemeyi dikkat mekanizmasıyla değiştirdi.

Dikkat mekanizması, modelin tüm kelimelere aynı anda bakmasını ve her bir kelimeyi anlamak için hangi kelimelerin önemli olduğuna karar vermesini sağlar. Q, K, V matrisleri, modelin kelimeler arasındaki ilişkileri belirlemesine olanak tanır. Girdiyi yeniden şekillendirerek, modelin her kelimeye eşit davranmak yerine faydalı bağlantıları vurgulamasını sağlarlar. Her bir kelime, diğer tüm kelimelerle ne kadar ilgili olduğunu kontrol edebilir. Örneğin, "oturdu" kelimesi doğrudan "kedi" kelimesiyle yüksek bir dikkat ilişkisi kurabilir. Bu paralel işleme, daha hızlı eğitim ve uzak kelimeler arasındaki ilişkilerin daha iyi yakalanmasını sağlar.

Dikkat mekanizmasını bir veritabanı sorgu sistemine benzetebiliriz. Bir veritabanını sorgularken bir arama terimi (Query) sağlarız, veritabanı bunu dizinlenmiş anahtarlarıyla (Key) karşılaştırır ve ilgili değerleri (Value) döndürür. Q, K, V mekanizması da benzer şekilde çalışır: Query (Q) "Ne arıyorum?", Key (K) "Ne içeriyorum?" ve Value (V) "Hangi bilgiyi tutuyorum?" sorularına karşılık gelir. Girdi dizimizdeki her konum için bir sorgu oluşturulur ("Neye dikkat etmeliyim?"), bu sorgu tüm anahtarlarla karşılaştırılır ve en iyi eşleşen anahtarlara karşılık gelen değerler alınır.

İçgörü

Büyük dil modellerinin (LLM) metin içindeki karmaşık ilişkileri ve bağlamı derinlemesine anlamasını sağlayan dikkat mekanizmasının temelini oluşturan Q, K, V matrislerinin işleyişini ve önemini açıklıyor.

Kaynak