Ana Sayfa

vLLM, DeepSeek ile Büyük Ölçekli LLM Çıkarımında Rekor Hızlara Ulaştı

1 dk okuma

vLLM, V0 motorundan V1 motor mimarisine geçişini tamamladığını duyurdu. Bu başarı, 1.969 katılımcının ve son bir ayda 950'den fazla commit'in katkılarıyla gerçekleşti. vLLM'in Meta, LinkedIn, Red Hat gibi büyük şirketler tarafından üretimde kullanılması, platformun güvenilirliğini ve performansını kanıtlıyor. Özellikle DeepSeek tarzı ayrıştırılmış sunum (disaggregated serving) ve seyrek uzman karışımı (sparse mixture-of-experts - MoE) model dağıtımları, yüksek performanslı büyük dil modeli (LLM) çıkarımı için sektördeki en ileri yaklaşımlar olmaya devam ediyor.

vLLM ekibi, bu alandaki verimi daha da artırmak için bir dizi önemli optimizasyon geliştirdi. Bunlar arasında asenkron zamanlama (async scheduling), çift toplu iş çakışması (dual-batch overlap), ayrıştırılmış sunum, CUDA graph modu, DeepGEMM'in varsayılan olarak etkinleştirilmesi, DeepEP çekirdek entegrasyonu, uzman paralel yük dengeleme ve DeepSeek-R1 için SiLU çekirdeği gibi yenilikler bulunuyor. Bu iyileştirmeler sayesinde, Coreweave H200 kümesinde yapılan son topluluk benchmark'ları, H200 GPU başına sürekli 2.200 token/saniye gibi etkileyici bir verim gösteriyor. Bu rakam, önceki benchmark'lardaki ~1.500 token/saniye değerine kıyasla önemli bir artışı temsil ediyor ve kernel iyileştirmeleri ile Dual Batch Overlap (DBO) gibi özelliklerin doğrudan bir sonucu.

Bu yüksek performans, operatörlerin iş yüklerini birleştirerek ve hedeflenen QPS (saniyedeki sorgu sayısı) için gereken kopya sayısını azaltarak anında fayda sağlamasına olanak tanıyor, bu da nihayetinde token başına maliyeti düşürüyor. Özellikle DeepSeek-V3 gibi öncü modellerin büyük ölçekli sunumu için Wide-EP (Expert Parallelism) kritik bir bileşen. Wide-EP, DeepSeek'in seyrek uzman aktivasyonu (sparse expert activation) ve KV önbellek yönetimi gibi özelliklerinden yararlanarak etkili KV önbelleğini maksimize ediyor. Bu desen, dağıtımdaki sıralar arasında tek bir uzman kümesini paylaşarak, token'ların uygun uzman tarafından işlenmek üzere sıralar arasında yönlendirilmesini sağlıyor ve EP'yi veri paralelliği (data parallelism - DP) ile birleştiriyor.

İçgörü

vLLM'in yeni optimizasyonları, büyük dil modellerinin dağıtım maliyetlerini düşürürken performansını önemli ölçüde artırarak yapay zeka çıkarımında yeni bir standart belirliyor.

Kaynak