Ana Sayfa

GPT'ler Chomsky Hiyerarşisinde Nerede Duruyor?

1 dk okuma

Makale, günümüzün popüler dil modelleri olan GPT'lerin (Generative Pre-trained Transformers) teorik bilgisayar bilimindeki Chomsky Hiyerarşisi'nde nerede konumlandığını inceliyor. Chomsky Hiyerarşisi, metin üreten algoritmaları ifade güçlerine göre sınıflandıran bir çerçevedir. Örneğin, bağlamdan bağımsız diller, programlama dillerinin çoğunu kapsayan, yerel kurallarla dizeler üreten dillerdir. n-gram diller ise bir dizenin devamının sadece önceki kelimelerin sınırlı bir sayısına bağlı olduğu daha basit bir alt kategoridir. İnsan dili ise bu sınıflardan çok daha karmaşıktır ve genel zekamız sayesinde prensipte Turing makinesini simüle edebilme yeteneğimizle herhangi bir hesaplanabilir dili anlayabiliriz.

GPT'lerin insan dilini soneler yazacak veya matematik yarışmaları kazanacak kadar iyi anlaması, onların da insanlar gibi Turing-tam olmaları gerektiği sorusunu akla getirir. Makale, bu konuda farklı argümanları değerlendiriyor. İlk olarak, GPT'lerin sonlu bir bağlam penceresine sahip olması nedeniyle sadece n-gram dillerini modelleyebileceği argümanı sunulur, ancak bu, sorunun ruhuna uygun bulunmaz. Öte yandan, bazı araştırmalar transformatörlerin, giriş dizisi uzunluğu arttıkça yeni katmanlar eklenmesine izin verilirse aslında Turing-tam olabileceğini öne sürmektedir.

Ancak makale, GPT'lerin, sonsuz bir bağlam penceresine sahip olsalar bile Turing-tam olamayacağını gösteren basit bir argüman sunar. Kelime dağarcığı boyutu sonlu olduğundan, gömme matrisinin satırları sınırlıdır ve her gömme kompakt bir alt kümede yer alır. Tychonoff Teoremi'ne göre, giriş gömmelerinin yaşadığı kompakt uzayların çarpımı da kompakttır. Transformatör mimarisi sınırlı sayıda sürekli işlem yaptığından, çıktı olasılıkları yukarıdan ve aşağıdan sınırlıdır. Bu durum, GPT'lerin teorik olarak Turing-tam bir makinenin tüm yeteneklerine sahip olamayacağını ve belirli karmaşıklıktaki dilleri modelleyemeyeceğini ima eder.

İçgörü

GPT'lerin teorik olarak Turing-tam bir makine olamayacağı, dil modellerinin ifade gücüne dair önemli sınırlamalar ortaya koyuyor.

Kaynak