Microsoft, 1-bit Büyük Dil Modelleri (LLM'ler) için tasarlanmış resmi çıkarım (inference) çerçevesi olan bitnet.cpp'yi tanıttı. Özellikle BitNet b1.58 gibi modeller için optimize edilmiş çekirdekler sunan bu framework, CPU'lar üzerinde hızlı ve kayıpsız çıkarım sağlıyor. ARM CPU'larda 1.37x ila 5.07x arasında hızlanmalar ve %55.4 ila %70.0 arasında enerji tüketimi azalması elde edilirken, x86 CPU'larda bu oranlar 2.37x ila 6.17x hızlanma ve %71.9 ila %82.2 enerji tasarrufu olarak belirtiliyor. Bu önemli iyileştirmeler, LLM'lerin yerel cihazlarda çalıştırılma potansiyelini büyük ölçüde artırıyor.
bitnet.cpp'nin en dikkat çekici özelliklerinden biri, tek bir CPU üzerinde 100 milyar parametreli bir BitNet b1.58 modelini insan okuma hızına (saniyede 5-7 token) yakın bir performansla çalıştırabilmesidir. Bu, büyük LLM'lerin bulut tabanlı sistemlere bağımlılık olmadan kişisel cihazlarda kullanılabilmesi için çığır açıcı bir gelişmedir. En son optimizasyonlar, paralel çekirdek uygulamaları ve yapılandırılabilir döşeme (tiling) ile gömme niceleme (embedding quantization) desteği sayesinde mevcut performansa ek olarak 1.15x ila 2.1x arasında daha fazla hız artışı sağlıyor. Gelecekte GPU ve NPU desteği de planlanıyor.
Proje, llama.cpp framework'ünden ilham alıyor ve T-MAC metodolojilerini kullanıyor. bitnet.cpp'nin piyasaya sürülmesiyle, model boyutu ve eğitim token'ları açısından 1-bit LLM'lerin büyük ölçekli geliştirilmesine ilham verilmesi hedefleniyor. Bu sayede, daha verimli ve erişilebilir yapay zeka modellerinin önü açılıyor.
Microsoft'un BitNet.cpp framework'ü, büyük dil modellerinin yerel CPU'larda yüksek performans ve enerji verimliliğiyle çalıştırılmasını sağlayarak yapay zekanın kişisel cihazlara yayılmasının önünü açıyor.