Andrej Karpathy'nin "Neural Networks: Zero to Hero" kursu, sinir ağlarını sıfırdan, kod yazarak inşa etmeyi hedefleyen kapsamlı bir eğitim serisidir. Kurs, özellikle dil modelleri (GPT gibi) üzerinden derin öğrenmeyi öğretmeye odaklanmıştır; çünkü Karpathy'ye göre, dil modelleri derin öğrenmeyi öğrenmek için mükemmel bir başlangıç noktası sunar ve edinilen bilgiler bilgisayar görüşü gibi diğer alanlara kolayca aktarılabilir. Katılımcılardan sağlam Python programlama bilgisi ve lise seviyesinde temel matematik (örneğin türev) beklentisi bulunmaktadır.
Eğitim, sinir ağlarının temelini oluşturan geri yayılım (backpropagation) ve eğitim süreçlerinin adım adım açıklanmasıyla başlar. İlerleyen videolarda, torch.Tensor'ın incelikleri ve sinir ağlarını verimli bir şekilde değerlendirmedeki kullanımı tanıtılırken, bigram karakter seviyesinde bir dil modeli uygulanır. Bu model, daha sonra modern Transformer dil modellerine doğru karmaşıklaştırılır. Kurs, çok katmanlı algılayıcı (MLP) karakter seviyesi dil modellerinin inşasına devam ederken, makine öğreniminin temel kavramları olan model eğitimi, öğrenme oranı ayarlaması, hiperparametreler, değerlendirme, eğitim/geliştirme/test veri setleri ve aşırı/eksik öğrenme gibi konuları da detaylıca ele alır.
Kursun ilerleyen aşamalarında, çok katmanlı MLP'lerin iç işleyişine derinlemesine inilir; ileri geçiş aktivasyonlarının ve geri geçiş gradyanlarının istatistikleri incelenir. Derin sinir ağlarının eğitimini kolaylaştıran ilk modern yeniliklerden biri olan Batch Normalization tanıtılır. Ayrıca, PyTorch'un otomatik gradyan hesaplama özelliğini kullanmadan, çapraz entropi kaybı, doğrusal katmanlar, tanh, Batch Normalization ve gömme tablosu üzerinden manuel geri yayılımın nasıl yapıldığı gösterilerek, gradyanların hesaplama grafiği boyunca nasıl aktığına dair güçlü bir sezgisel anlayış kazandırılır. Son olarak, daha derin MLP'ler kullanılarak DeepMind'ın WaveNet'ine benzer evrişimsel sinir ağı (CNN) mimarilerine geçiş yapılır.
Bu kurs, modern derin öğrenme tekniklerini ve dil modellerini sıfırdan inşa ederek, teorik bilginin pratik uygulamaya nasıl dönüştürüldüğünü gösteriyor.