Ana Sayfa

Büyük Dil Modeli İş Yükleri: Üç Tür ve Sunum Stratejileri

1 dk okuma

Büyük Dil Modelleri (LLM) uygulamaları geliştiren çoğu kuruluş, modellerine API'ler aracılığıyla erişse de, tüm LLM iş yüklerinin aynı olmadığını anlamak kritik öneme sahiptir. API'ler, farklı iş yüklerinin çeşitli maliyetlerini ve mühendislik ödünleşimlerini gizleyerek, genellikle belirgin bir token başına fiyatlandırma sunar. Ancak, DeepSeek ve Alibaba Qwen gibi açık kaynak modellerin yanı sıra vLLM ve SGLang gibi açık kaynak çıkarım motorlarındaki gelişmeler sayesinde model API'lerinin hakimiyeti sona ermektedir. Bu teknolojik değişimden faydalanmak isteyen mühendislerin, sistemlerini doğru bir şekilde tasarlamak ve optimize etmek için iş yüklerini daha detaylı anlamaları gerekmektedir.

Makale, LLM iş yüklerini üç ana kategoriye ayırıyor: çevrimdışı (offline), çevrimiçi (online) ve yarı çevrimiçi (semi-online). Çevrimdışı iş yükleri, toplu modda çalışır, verileri eşzamansız olarak depolar ve her şeyden önce yüksek verim talep eder. Çevrimiçi iş yükleri ise akış modunda çalışır, insanlarla eşzamanlı iletişim kurar ve düşük gecikme gerektirir. Yarı çevrimiçi veya ani (burtsy) iş yükleri ise toplu akışlar üzerinde çalışır, diğer canlı bilgisayar sistemleriyle iletişim kurar ve esnek altyapı talep eder.

Bu farklı iş yükleri için özel çözümler önerilmektedir. Çevrimdışı iş yükleri için, ad hoc, otomatik ölçeklenen işlem kapasitesine eşzamansız RPC aracılığıyla vLLM kullanılması tavsiye edilir. Çevrimiçi iş yükleri için SGLang, fazla tensör paralelliği ve EAGLE-3 spekülatif kod çözme ile düşük ek yüklü, önek farkındalıklı HTTP proxy'leri aracılığıyla erişilen canlı kenar Hopper/Blackwell GPU'larında önerilir. Yarı çevrimiçi iş yükleri için ise, her kopya başına değişken yükü kaldırabilen, ad hoc işlem kapasitesinin hızlı otomatik ölçeklenmesiyle her iki motorun da kullanılması tavsiye edilir. Bu yaklaşımlar, LLM uygulamalarının performansını ve maliyet etkinliğini artırmayı hedeflemektedir.

İçgörü

LLM uygulamalarının performansını ve maliyet etkinliğini optimize etmek için farklı iş yükü türlerini anlamak ve bunlara özel stratejiler uygulamak kritik öneme sahiptir.

Kaynak