Yazar, Sebastian Raschka'nın "Build a Large Language Model (from Scratch)" kitabının ana bölümünü tamamladıktan sonra, "ekstra kredi" projelerine devam ediyor. Daha önce tek bir RTX 3090 GPU üzerinde 48 saatte küçük ölçekli bir GPT-2 taban modeli eğitebildiğini kanıtlamasının ardından, bu kez Lambda Labs'deki çoklu GPU'lu bir makinede eğitim yapmayı denedi. Bu deneyin iki temel amacı vardı: basit tek GPU eğitim döngüsünü çoklu GPU'ya uyarlamak için nelerin değişmesi gerektiğini öğrenmek ve tam bir taban modelinin eğitim süresini 48 saatten daha yönetilebilir ve uygun maliyetli bir seviyeye indirmek. Bu sayede, eğitilen modelin kalitesini artırmak için farklı deneyler yapabilecekti. Ayrıca, farklı makine boyutlarının model kalitesini etkileyip etkilemediğini de gözlemlemek istedi.
Yazar, bu süreçte DistributedDataParallel (DDP) tekniğini kullanarak çeşitli sunucularda denemeler yaptı. Toplamda 215.16 ABD doları harcayarak, Lambda Labs'de 8 adet 40 GiB VRAM'e sahip A100 GPU içeren bir örneğin, 163 milyon parametreli model için en uygun nokta olduğunu keşfetti. Bu yapılandırma, modeli dört saatten daha kısa sürede eğitebiliyor ve parti boyutları açısından kayıpları minimize eden doğru boyutta oluyor. Doğrulama hariç, bu eğitim yaklaşık 35 ABD dolarına mal oluyor. Yazar, bu deneylerin kod yapısını ve veri seti oluşturma süreçlerini de sürekli olarak geliştirdiğini belirtiyor.
Büyük Dil Modeli (LLM) eğitiminde çoklu GPU kullanımı, maliyet etkinliği ve hız açısından önemli optimizasyonlar sağlayarak araştırma ve geliştirmeyi hızlandırabilir.