Büyük Dil Modelleri (LLM'ler) büyüdükçe, yetenekleri arttıkça ve yaygınlaştıkça, bu modellerin iç işleyişini anlamaya odaklanan mekanik yorumlanabilirlik alanı giderek daha ilgi çekici ve önemli hale geliyor. Yazılım mühendislerinin dosya sistemleri ve ağlar hakkında iyi zihinsel modellere sahip olmaktan faydalanması gibi, yapay zeka araştırmacıları ve mühendisleri de LLM'lerden ortaya çıkan "zekayı" anlamak için teorik bir temele sahip olmaya çalışmalıdır. Güçlü bir zihinsel model, teknolojiyi kullanma yeteneğimizi geliştirecektir. Bu makale, bu alandaki matematiksel açıdan büyüleyici bulduğum iki temel ve ilişkili kavramı ele alıyor: doğrusal temsil hipotezi (Linear Representation Hypothesis - LRH) ve süperpozisyon.
Doğrusal temsil hipotezi, Word2Vec tarafından üretilen kelime gömmelerinin (word embeddings) bazı ilginç özellikler sergilediği fark edildiğinden beri varlığını sürdürüyor. Eğer E(x) bir kelimenin gömme vektörü ise, yaklaşık olarak E("kral") - E("erkek") + E("kadın") ≈ E("kraliçe") denkliğini gözlemlersiniz. Bu tür gözlemler, kavramların (örneğin örnekteki cinsiyet) gömme uzayının geometrisinde doğrusal olarak temsil edildiğini düşündürüyor ki bu basit ama bariz olmayan bir iddiadır.
Modern LLM'lere gelindiğinde, LRH, bu modellerin içinde neler olup bittiğini yorumlamak için popüler bir yol olmaya devam ediyor. Park ve arkadaşları tarafından hazırlanan makale, bu fikri resmileştirmek için hipotezin matematiksel bir çerçevesini sunuyor. Çoğu iç işleyişin (çok katmanlı algılayıcı, dikkat mekanizması vb.) bir kara kutu olarak ele alındığı basitleştirilmiş bir LLM modelini kullanır ve LRH'nin yorumlanması, modelle aynı boyutta iki ayrı temsil uzayında gerçekleşir: ağın son gizli durumlarının bulunduğu "gömme uzayı" ve her çıkış token'ı için çözme (unembedding) matrisinin satırlarının bulunduğu "çözme uzayı". Bir kavramın varlığını değerlendirmek için gizli durum üzerinde doğrusal bir prob ile ölçülen kavram yönü, bu uzaydaki bir vektöre karşılık gelir. Bu, modelin nasıl çalıştığını anlamak için kritik bir adımdır.
Büyük dil modellerinin iç işleyişini anlamak, yapay zeka teknolojilerini daha etkin kullanmak ve geliştirmek için temel bir adımdır.