41 haber bu etiketle işaretlenmiş
Yapay zeka ve özellikle Büyük Dil Modelleri (LLM'ler) alanındaki gelişmeler baş döndürücü olsa da, yazar bu sistemlerin şaşırtıcı derecede basit detaylarda tökezlediğine dikkat çekiyor. Bir kelimedeki...
HySparse, tam dikkat (full attention) katmanlarını seyrek dikkat (sparse attention) katmanlarıyla birleştiren yenilikçi bir hibrit mimaridir. Bu mimari, mevcut seyrek dikkat yöntemlerinin iki temel sı...
Büyük dil modellerinin (LLM) verimli bir şekilde sunulması için ağırlık bazlı kuantizasyon standart bir yaklaşım haline gelmiştir. Ancak mevcut yöntemler, modelleri ikili (1-bit) seviyelere kadar veri...
Büyük dil modelleri (LLM'ler), kelimeleri sayılara dönüştüren, bu sayıları karmaşık bir matematiksel süreçten geçiren ve sonuçları tekrar kelimelere çeviren devasa sayı yığınlarından ibarettir. Meteor...
Bu GitHub Pull Request'i (PR), Hugging Face Transformers kütüphanesine yaklaşmakta olan Qwen3.5 serisi modeller için destek eklenmesini konu alıyor. Qwen, özellikle büyük dil modelleri alanında dikkat...
Büyük Dil Modelleri (LLM'ler), kısa sürede basit sohbet yanıtları vermekten, tüm mühendislik ekipleri ölçeğinde görevleri özerk bir şekilde koordine etmeye ve tamamlamaya evrildi. Eskiden geliştiricil...
Anthropic, en akıllı modeli Claude Opus'un yeni sürümü olan Claude Opus 4.6'yı tanıttı. Bu yükseltme, modelin kodlama yeteneklerini önemli ölçüde geliştiriyor; daha dikkatli planlama yapabiliyor, oton...
NVIDIA tarafından sıfırdan eğitilen Nemotron-3-Nano-30B-A3B-BF16, hem akıl yürütme hem de akıl yürütme gerektirmeyen görevler için tasarlanmış birleşik bir büyük dil modelidir (LLM). Model, kullanıcı ...
Moonshot AI tarafından geliştirilen Kimi K2.5, uzun bağlam anlama ve işleme yetenekleriyle öne çıkan gelişmiş bir büyük dil modelidir (LLM). Bu teknik rapor, modelin mimarisi, eğitim metodolojisi ve p...
Anthropic'in yapay zeka asistanı Claude'u geliştirirken kullandığı yöntem, şirketin yapay zekaya bir "ruh" atfedip atfetmediği sorusunu gündeme getiriyor. Şirket, bu konuda net bir açıklama yapmazken,...
Arcee, 400 milyar parametreli seyrek MoE modeli Trinity-Large'ı tanıttı. Geliştiricilere açık ağırlıklar, güçlü muhakeme yeteneği ve tam kontrol sunan bu model, Trinity Mini'nin ardından şirketin ön e...
gemma3.c, Google'ın Gemma 3 4B IT büyük dil modelini (LLM) Python, PyTorch veya GPU'ya ihtiyaç duymadan doğrudan CPU üzerinde çalıştırmak için sıfırdan yazılmış saf bir C (C11) çıkarım motorudur. Bu p...