Ana Sayfa

NanoGPT Slowrun: Sınırlı Veriyle Dil Modellerinde Verimlilik

1 dk okuma

Yapay zeka alanında hesaplama gücü (compute) veri miktarından çok daha hızlı artarken, mevcut ölçeklendirme yasaları her ikisinin de orantılı artışını gerektiriyor. Bu dengesizlik, özellikle dil modelleri dışındaki alanlarda, yapay zekanın gelişiminin veri kısıtlamasına takılmasına neden oluyor. Robotik ve biyoloji gibi alanlarda, büyük veri ihtiyacı zayıf modellere yol açarken, sadece hesaplama gücüyle ölçeklenmenin yolu henüz bulunamadı. Q Labs, bu sorunu çözmek ve genelleşmeyi anlamak amacıyla, sınırlı veri ve pratik olarak sonsuz hesaplama gücü ortamlarında çalışacak yeni öğrenme algoritmaları geliştirmeyi hedefliyor.

Bu hedefe yönelik olarak Q Labs, veri açısından verimli öğrenme algoritmaları için açık bir depo olan NanoGPT Slowrun'u başlattı. Projenin kuralları basit: FineWeb'den 100 milyon token üzerinde eğitim yap, istediğin kadar hesaplama gücü kullan ve en düşük doğrulama kaybını elde eden kazanır. Modded-nanogpt gibi hız odaklı karşılaştırmaların aksine, Slowrun ağır düzenlileştirme, ikinci dereceden optimize ediciler veya gradyan inişi alternatifleri gibi hesaplama açısından pahalı ancak veri açısından verimli fikirleri keşfetmek için tasarlandı. İlk bulgular, Muon optimize edicisinin diğer tüm test edilen optimize edicilerden daha iyi performans gösterdiğini, çoklu dönem eğitiminin önemini ve agresif düzenlileştirme ile büyük parametre sayılarına ölçeklenmenin mümkün olduğunu ortaya koydu.

Başlangıçta modded-nanogpt'ye kıyasla yaklaşık 2.4 kat veri verimliliği sağlayan NanoGPT Slowrun, topluluk katkılarıyla birkaç gün içinde 5.5 katına çıktı. Bu iyileşmede, her dönemin başında karıştırma, değer gömme için öğrenilmiş projeksiyonlar, SwiGLU aktivasyonunun kullanılması ve birden fazla modelin birleştirilmesi gibi değişiklikler etkili oldu. Kısa vadede 10 kat veri verimliliğine ulaşılabilir görünürken, yıl sonuna kadar 100 katın bile mümkün olabileceği düşünülüyor. İkinci dereceden optimize ediciler, difüzyon modelleri, müfredat öğrenimi ve evrimsel arama gibi gradyan inişi alternatifleri gibi birçok keşfedilmemiş yön, gelecekteki iyileştirmeler için geniş bir alan sunuyor.

İçgörü

Yapay zeka modellerinin veri kısıtlamasını aşarak daha verimli öğrenmesini sağlamak için yeni algoritmalar geliştirmek, gelecekteki yapay zeka ilerlemesi için kritik öneme sahiptir.

Kaynak