Büyük Dil Modelleri'ni (LLM) tek bir spesifik model yerine, harcanacak işlem gücüyle kontrol edilen bir model ailesi olarak düşünmek, ölçeklendirme yasalarını dikkatlice incelemeyi ve büyük ölçekli çalıştırmaların (big run) başarılı olacağına dair güveni artırmayı sağlar. Nanochat'in ilk halka açık sürümünde uçtan uca bir LLM işlem hattına odaklanılmıştı. Şimdi ise, modellerin zekasının ve bilgisinin temelini oluşturan, hem hesaplama açısından yoğun hem de kritik olan ön eğitim (pretraining) gibi hızla geçilen bazı kısımlar detaylandırılıyor.
Nanochat'te bu "tek kontrol düğmesi" modelin derinliğidir. Örneğin, d12 modeli (GPT-1 boyutunda) 12 katmana sahiptir ve yaklaşık 6 dakikada eğitilebilir. Modelin derinliği, Transformer'daki kanal sayısını, parametre ve token başına FLOP sayısını, optimizasyon hiperparametrelerini (özellikle öğrenme oranını) ve ölçeklendirme yasaları analizi aracılığıyla "işlem gücü açısından optimal" bir model elde etmek için gereken eğitim süresini belirler. En son commit ile miniseries.sh betiği, d10'dan d20'ye kadar olan Nanochat model ailesini tarar. Bu modellerin hepsi, tek bir 8XH100 düğümüne sığar.
Bu 11 modelin d10'dan d20'ye kadar art arda eğitimi, güvenilir 8XH100 düğümünde yaklaşık 4 saat sürdü ve toplam maliyeti yaklaşık 100 dolar oldu. Kod, mimari ve optimizasyon doğru düzenlenmişse ve ölçeklendirme yasaları doğru uygulanmışsa, bu eğrilerin kesişmemesi gerekir; her biri belirli bir doğrulama kaybına ulaşmak için benzersiz, işlem gücü açısından optimal yolu temsil eder. Yazar, modelleri karşılaştırmak için doğrulama kaybını kullanmaktan kaçınıyor çünkü bu metrik basit olsa da yanıltıcı olabilir (örneğin, nanogpt'deki bazı değişikliklerin metriği "oynaması" veya GPT-2/GPT-3 ile farklı ve bilinmeyen veri dağılımları nedeniyle adil olmayan karşılaştırmalar). Gerçek metriklerin önemli olduğunu vurguluyor ve DCLM makalesinde sunulan bir ensemble metriğine değiniyor.
Nanochat'in 'miniseries' yaklaşımı, büyük dil modellerinin (LLM) geliştirilmesinde tek bir modele odaklanmak yerine, harcanan işlem gücüne göre ölçeklenen bir model ailesi oluşturarak daha güvenilir ve bilimsel bir ilerleme sağlıyor.