Ana Sayfa

MicroGPT: LLM'lerin Temelini Anlamak

1 dk okuma

Andrej Karpathy tarafından geliştirilen 200 satırlık saf Python betiği olan MicroGPT, büyük dil modellerinin (LLM) temel algoritmasını kütüphane veya bağımlılık kullanmadan sıfırdan inşa etmeyi ve çalıştırmayı gösteriyor. Bu proje, ChatGPT gibi modellerin arkasındaki karmaşık mekanizmaların aslında ne kadar yalın bir çekirdeğe sahip olduğunu interaktif bir şekilde açıklıyor. Metin, bir dil modelinin nasıl eğitildiğini ve çalıştığını adım adım, özellikle yeni başlayanlar için görsel bir yaklaşımla ele alıyor.

Model, her biri bir belge olarak kabul edilen 32.000 insan isminden oluşan bir veri seti üzerinde eğitiliyor. Amacı, bu isimlerdeki istatistiksel örüntüleri öğrenerek "kamon", "karai", "anna" gibi gerçekçi yeni isimler üretebilmek. Bu isimler veri setinden kopyalanmamış olup, modelin hangi karakterlerin birbirini takip ettiğini, hangi seslerin başlangıçta veya sonda yaygın olduğunu ve tipik bir ismin uzunluğunu öğrendiğini gösteriyor. ChatGPT'nin bir konuşmayı istatistiksel bir belge tamamlama olarak görmesi gibi, MicroGPT de bu prensibi isimler üzerinde uyguluyor.

Sinir ağları karakterlerle değil, sayılarla çalıştığı için metinlerin tam sayı dizilerine dönüştürülmesi gerekiyor. Bu süreç, veri setindeki her benzersiz karaktere bir tam sayı atayan basit bir "tokenizer" ile gerçekleştiriliyor. Örneğin, 26 küçük harfe 0'dan 25'e kadar kimlikler atanırken, bir ismin başlangıcını ve sonunu işaretleyen özel bir BOS (Beginning of Sequence) token'ı da ekleniyor. Modelin temel görevi, şimdiye kadar gördüğü token'ları kullanarak bir sonraki token'ı tahmin etmek. Bu "tahmin oyunu", bir kayar pencere (sliding window) mantığıyla çalışır; her adımda bağlam (context) büyürken, hedef (target) bir sonraki token'a kaydırılır. Her adım, modelin tahmin etmesi gereken bir giriş-hedef çifti oluşturur. Modelin çıktısı olan ham sayılar (Logits), Softmax fonksiyonu kullanılarak 0 ile 1 arasında değişen olasılıklara dönüştürülerek bir sonraki token'ın ne olabileceği belirlenir. Bu temel prensipler, ChatGPT dahil tüm dil modellerinin eğitiminde kullanılır.

İçgörü

Büyük dil modellerinin (LLM) temel çalışma prensiplerini ve algoritmalarını sıfırdan, basit bir Python betiğiyle anlamak için eşsiz bir kapı aralıyor.

Kaynak