SMLL projesi, dil modellerinin (LLM) metin sıkıştırmadaki potansiyelini sıra dışı bir yaklaşımla ortaya koyuyor. Proje, Jane Austen'ın açılış cümlesi gibi kısa metinleri 117 bayttan 10 bayta kadar sıkıştırabilirken, bu sıkıştırma için kullanılan model ağırlıklarının 200 megabayt olmasıyla dikkat çekiyor. Geleneksel sıkıştırma algoritmaları olan gzip'in bu tür küçük metinlerde dosyayı büyütme eğilimine karşın, SMLL 10 kata kadar daha küçük dosyalar elde edebiliyor. Özellikle LLM tarafından üretilen metinlerde gzip'ten 8 kat daha iyi, %1496'lık bir sıkıştırma oranı sunuyor; ancak bu, 200 MB'lık modelin önceden her iki tarafça da kabul edilmesi şartıyla geçerli.
Bu yenilikçi sıkıştırma yöntemi, Claude Shannon'ın 1948'de ortaya koyduğu bilgi teorisi ve entropi kavramına dayanıyor. Bir sonraki sembolün ne kadar şaşırtıcı olduğunun, yani ne kadar bilgi taşıdığının ölçüsü olan entropi, LLM'lerin metin üretimindeki temel prensibiyle örtüşüyor. LLM'ler, bir sonraki kelimenin olasılığını tahmin ederek aslında o kelimenin taşıdığı bilgi miktarını belirliyor. SMLL, bu olasılıkları 1970'lerden kalma bir sıkıştırma algoritması olan aritmetik kodlama ile birleştiriyor. LLM'in sağladığı olasılıklar, aritmetik kodlayıcı tarafından bit akışına dönüştürülerek teorik sıkıştırma limitine yaklaşılıyor.
Sistem, her bir token için LLM'e önceki token'lar göz önüne alındığında bir sonraki token'ın olasılık dağılımını soruyor, ardından gerçek token'ın olasılığını alıp aritmetik kodlayıcıya iletiyor. Kodlayıcı, olasılıkla orantılı bitler üretiyor. Sıkıştırma ve açma süreçleri simetrik olup, her iki tarafta da aynı modelin kullanılması zorunlu. Bu yaklaşım, DeepMind'ın 2023'teki çalışmaları ve Fabrice Bellard'ın ts_zip projesi gibi benzer fikirlerin devamı niteliğinde. Hutter Ödülü gibi girişimler de uzun süredir sıkıştırma ve zeka arasındaki ilişkiyi vurguluyor.
Yapay zeka modellerinin metin sıkıştırmada teorik limitlere yaklaşma potansiyeli sunması, veri depolama ve iletim verimliliği için yeni ufuklar açıyor.