26 haber bu etiketle işaretlenmiş
Model damıtma (distillation), bir modelden (öğretmen) genellikle daha küçük başka bir modele (öğrenci) bilgi aktarma sürecidir. Bu yöntem, kuantizasyona benzer şekilde, daha az bellek ve işlem gücü ku...
Yazar, sıfırdan oluşturulan bir GPT-2 küçük temel modelinin test kaybını iyileştirmek amacıyla çeşitli müdahaleler denemektedir. Sebastian Raschka'nın "Build a Large Language Model (from Scratch)" kit...
2022'den bu yana dünya, yapay zeka alanındaki hızlı gelişmelerle köklü bir dönüşüm geçirdi. ChatGPT gibi modellerin ortaya çıkışı, siber saldırılarda yapay zeka kullanımı, insansı robotların yaygınlaş...
Bu makale, Andrej Karpathy'nin basit otokorelatif Baby GPT modelini adım adım bir difüzyon modeline dönüştürme sürecini detaylandırıyor. Geleneksel otokorelatif modeller, bir sonraki kelimeyi tahmin e...
Derin öğrenme sinir ağlarının eğitimi genellikle önemli miktarda işlem gücü gerektirse de, çıkarım (inference) aşaması oldukça verimlidir ve küçük cihazlarda bile çalıştırılabilir. Bu durum, cep telef...
Bu GitHub deposu, derin öğrenme alanının önde gelen isimlerinden Ilya Sutskever'in "derin öğrenmenin %90'ını öğretecek" dediği ve John Carmack'a tavsiye ettiği 30 temel makalenin kapsamlı ve eğitici u...
Bu GitHub deposu, derin öğrenme ve bilgisayar görüsü alanındaki önemli bilimsel makaleleri PyTorch kullanarak minimal kod satırlarıyla (genellikle 100 satır veya daha az) yeniden uygulamayı hedefliyor...
DeepSeek, yapay zeka modellerini daha kolay ve istikrarlı bir şekilde ölçeklendirmek için "Manifold-Constrained Hyper-Connections" (mHC) adını verdiği yeni bir eğitim metodu yayınladı. Şirketin kurucu...
Perplexity AI, trilyon parametreli modeller için takviyeli öğrenme (RL) sonrası eğitimde karşılaşılan ağırlık aktarımı sorununa çığır açan bir çözüm sunuyor. Asenkron RL ince ayarında, eğitim ve çıkar...
Tauformer, geleneksel transformer modellerindeki nokta-çarpım dikkat mekanizmasını, Laplacian tabanlı skalerler (taumode) ile değiştiren yenilikçi bir topolojik transformer mimarisidir. Bu yaklaşım, h...
Modern transformatör mimarileri, 2016'dan beri aynı temel kalıntı bağlantı (residual connection) tasarımını kullanır. GPT-5, Claude, Llama gibi modellerde, her katmanın ağa bilgi eklediği tek bir akış...
Yapay sinir ağı budama teknikleri, eğitilmiş ağların parametre sayılarını %90'dan fazla azaltarak depolama gereksinimlerini düşürebilir ve çıkarım (inference) performansını doğruluktan ödün vermeden a...