Ana Sayfa

Fabrice Bellard'dan Yapay Zeka Destekli Metin Sıkıştırma Aracı: ts_zip

1 dk okuma

Fabrice Bellard tarafından geliştirilen ts_zip, Büyük Dil Modelleri (LLM) kullanarak metin dosyalarını sıkıştırmak için tasarlanmış deneysel bir araçtır. Geleneksel sıkıştırma araçlarına kıyasla çok daha yüksek sıkıştırma oranları sunarak dikkat çekmektedir. Özellikle xz gibi popüler sıkıştırıcılara göre belirgin bir performans artışı sağladığı, verilen örneklerde açıkça görülmektedir. Örneğin, enwik9 dosyasında xz 1.707 bpb (bit/bayt) sıkıştırma sağlarken, ts_zip 1.084 bpb ile çok daha verimli bir sonuç elde etmiştir.

Ancak ts_zip'in bazı önemli kısıtlamaları bulunmaktadır. Makul bir hız elde etmek için bir GPU'ya (en az 4 GB RAM) ihtiyaç duyar ve geleneksel sıkıştırıcılardan daha yavaştır; bir RTX 4090 üzerinde bile saniyede 1 MB'a kadar hızlara ulaşabilir. Yalnızca metin dosyalarını destekler ve ikili dosyalar üzerinde etkili değildir. Mevcut dil modeli olan RWKV 169M v4, çoğunlukla İngilizce metinler üzerinde eğitilmiş olsa da, kaynak kodları ve diğer dilleri de desteklemektedir. Aracın deneysel doğası gereği, farklı versiyonlar arasında geriye dönük uyumluluk beklenmemelidir.

Teknik olarak ts_zip, hız ve sıkıştırma oranı arasında iyi bir denge sunan RWKV 169M v4 dil modelini kullanır. Model, parametre başına 8 bit olarak nicelenmiş ve BF16 kayan nokta sayıları kullanılarak değerlendirilmektedir. Dil modeli, bir sonraki jetonun olasılıklarını tahmin ederken, bir aritmetik kodlayıcı bu olasılıklara göre jetonu kodlar. Bu süreç, sıkıştırma ve açma işlemlerinin donanım veya yazılım yapılandırmasından bağımsız olarak deterministik ve yeniden üretilebilir olmasını sağlar, bu da sıkıştırılmış bir dosyanın farklı sistemlerde bile doğru şekilde açılabilmesi için kritik bir özelliktir.

İçgörü

Büyük Dil Modellerinin metin sıkıştırma alanında geleneksel yöntemlere kıyasla önemli verimlilik artışları sağlayabileceğini gösteriyor.

Kaynak