Ana Sayfa

NanoQuant: LLM'leri Sub-1-Bit Seviyesine İndiren Verimli Kuantizasyon

1 dk okuma

Büyük dil modellerinin (LLM) verimli bir şekilde sunulması için ağırlık bazlı kuantizasyon standart bir yaklaşım haline gelmiştir. Ancak mevcut yöntemler, modelleri ikili (1-bit) seviyelere kadar verimli bir şekilde sıkıştırmakta yetersiz kalmaktadır. Bu yöntemler ya büyük miktarda veri ve hesaplama gerektirmekte ya da ek depolama alanı ihtiyacı doğurmaktadır. Bu alandaki boşluğu doldurmak amacıyla geliştirilen NanoQuant, LLM'leri hem ikili hem de 1-bit altı seviyelere sıkıştırabilen ilk eğitim sonrası kuantizasyon (PTQ) yöntemidir.

NanoQuant, kuantizasyonu düşük dereceli ikili çarpanlara ayırma problemi olarak formüle eder. Tam hassasiyetli ağırlıkları düşük dereceli ikili matrislere ve ölçeklere sıkıştırır. Yöntem, gizli ikili matrisleri ve ölçekleri hassas bir şekilde başlatmak için verimli bir ADMM (Alternating Direction Method of Multipliers) metodunu kullanır. Ardından, başlatılan parametreleri blok ve model yeniden yapılandırma süreciyle ayarlar. Bu sayede NanoQuant, düşük bellekli eğitim sonrası kuantizasyonda yeni bir Pareto sınırı oluşturarak, 1-bit altı sıkıştırma oranlarında bile son teknoloji doğruluk elde etmektedir.

NanoQuant, büyük ölçekli LLM dağıtımlarını tüketici donanımlarında mümkün kılmaktadır. Örneğin, Llama2-70B modelini tek bir H100 GPU üzerinde sadece 13 saatte 25.8 kat sıkıştırarak, 70B'lik bir modelin tüketici sınıfı 8 GB GPU'larda çalışmasını sağlamaktadır. Bu yenilik, LLM'lerin daha geniş kitlelere ulaşmasını ve daha erişilebilir hale gelmesini sağlayabilir.

İçgörü

NanoQuant, büyük dil modellerinin bellek ihtiyacını dramatik şekilde azaltarak, gelişmiş yapay zeka yeteneklerinin standart tüketici donanımlarında bile çalışmasını mümkün kılıyor.

Kaynak