Ana Sayfa

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

1 dk okuma

Sebastian Raschka'nın "LLM Architecture Gallery" sayfası, büyük dil modellerinin (LLM) mimarilerini ve teknik özelliklerini bir araya getiren kapsamlı bir kaynak sunuyor. "The Big LLM Architecture Comparison" ve "A Dream of Spring for Open-Weight LLMs" gibi makalelerden derlenen bu galeri, özellikle model mimarisi panellerine odaklanıyor. Kullanıcılar, her bir mimari figürünü büyüterek detayları inceleyebilir ve ilgili makale bölümlerine kolayca ulaşabilirler. Sayfa, Llama 3 8B, OLMo 2 7B, DeepSeek V3/R1, Gemma 3 27B, Qwen3 çeşitli boyutları, GLM-4.5 355B ve GPT-OSS 120B/20B gibi önde gelen LLM'lerin yapısal detaylarını sunuyor.

Galeri, farklı modellerin parametre ölçekleri, çıkış tarihleri, decoder tipleri (yoğun veya seyrek MoE), dikkat mekanizmaları (GQA, RoPE, MLA, QK-Norm, kayan pencere ve global dikkat) ve anahtar tasarım özelliklerini karşılaştırmalı bir şekilde gözler önüne seriyor. Örneğin, Llama 3'ün pre-norm baseline'ı ve OLMo 2'den daha geniş yapısı, DeepSeek R1'in V3 mimarisi üzerine inşa edilmiş muhakeme odaklı eğitimi, Gemma 3'ün yerel dikkate ağırlık vermesi veya Qwen3'ün paylaşımlı uzman içermeyen optimize edilmiş yüksek kapasiteli MoE tasarımı gibi detaylar vurgulanıyor. GLM-4.5'in ajan odaklı hibrit yapısı ve GPT-OSS'nin değişen dikkat katmanları da dikkat çekiyor. Bu detaylı bakış, LLM geliştiricileri ve araştırmacılar için değerli bir referans noktası sağlıyor.

İçgörü

Bu galeri, farklı büyük dil modellerinin temel mimari tasarımlarını ve yenilikçi yaklaşımlarını bir araya getirerek, alandaki gelişmeleri ve çeşitliliği anlamak için merkezi bir kaynak sunuyor.

Kaynak