34 haber bu etiketle işaretlenmiş
LoGeR, DeepMind ve UC Berkeley tarafından geliştirilen yeni bir yöntem olup, son derece uzun videolardan 3D yeniden yapılandırma sürecini kökten değiştiriyor. Geleneksel yöntemlerin karşılaştığı kares...
Transformer mimarisi, özellikle doğal dil işleme alanında çığır açan başarılarıyla tanınan, karmaşık ve güçlü bir derin öğrenme modelidir. Ancak bu makale, Transformer'ın temel prensiplerini ve işleyi...
NNUE (Neural Network Updated Evaluation) modellerinde aktivasyon fonksiyonlarının performans üzerindeki etkisi büyük önem taşıyor. Bu makale, Viridithas'ın NNUE mimarisinde kullanılan aktivasyon fonks...
Yinelemeli sinir ağlarının (RNN) eğitimi sırasında hata sinyallerinin neden her zaman geriye doğru (Backpropagation Through Time - BPTT) yayıldığı temel sorusunu ele alan bu çalışma, şaşırtıcı bir şek...
DeepMind'ın en gelişmiş müzik üretim modeli olan Lyria 3, kullanıcıların müzikal ilham bulmalarına, yeni türleri keşfetmelerine ve ses manzaralarıyla oynamalarına olanak tanıyor. Bu yenilikçi araç, yü...
Virtual Width Networks (VWN) adı verilen yeni bir framework, yapay zeka modellerinde daha geniş temsillerin sunduğu avantajları, gizli katman boyutunu artırmanın getirdiği karesel maliyetlere katlanma...
PyTorch, günümüzde en popüler derin öğrenme framework'lerinden biridir. Meta AI tarafından geliştirilen ve artık Linux Foundation bünyesinde yer alan bu açık kaynaklı kütüphane, makine öğrenimi dünyas...
DjVu, taranmış kitaplar, matematiksel makaleler ve benzeri belgeler için orijinal PDF'e kıyasla oldukça üstün bir dosya formatıdır. Özellikle büyük görsel taramalar söz konusu olduğunda, DjVu'nun avan...
Model damıtma (distillation), bir modelden (öğretmen) genellikle daha küçük başka bir modele (öğrenci) bilgi aktarma sürecidir. Bu yöntem, kuantizasyona benzer şekilde, daha az bellek ve işlem gücü ku...
Yazar, sıfırdan oluşturulan bir GPT-2 küçük temel modelinin test kaybını iyileştirmek amacıyla çeşitli müdahaleler denemektedir. Sebastian Raschka'nın "Build a Large Language Model (from Scratch)" kit...
2022'den bu yana dünya, yapay zeka alanındaki hızlı gelişmelerle köklü bir dönüşüm geçirdi. ChatGPT gibi modellerin ortaya çıkışı, siber saldırılarda yapay zeka kullanımı, insansı robotların yaygınlaş...
Bu makale, Andrej Karpathy'nin basit otokorelatif Baby GPT modelini adım adım bir difüzyon modeline dönüştürme sürecini detaylandırıyor. Geleneksel otokorelatif modeller, bir sonraki kelimeyi tahmin e...