İstatistiksel mekanikteki sıcaklık tanımından ve sıfırın altına düşme olasılığından esinlenerek, LLaMA dil modelini negatif sıcaklıkta örnekleme deneyi yapıldı. Bu deney, dil modellerinin metin üretimindeki olasılık dağılımlarını temelden değiştirmeyi hedefliyor. Geleneksel olarak, sıcaklık, bir dil modelinin ne kadar yaratıcı veya tahmin edilebilir metin üreteceğini belirler; düşük sıcaklıklar en olası token'ları seçerken, yüksek sıcaklıklar daha rastgele çıktılar verir. Bu durum, sinir ağlarının son katmanındaki softmax fonksiyonunun Boltzmann dağılımına benzerliğiyle açıklanır.
Negatif sıcaklık kavramı, Kelvin gibi mutlak bir ölçekte sıfırın altına düşmek anlamına gelir ve fiziksel sistemlerde nadiren görülse de, sonlu bir durum uzayına sahip sistemlerde anlam kazanır. Sinir ağları da sonlu sayıda nörona sahip olduğu için bu kategoriye girer. Negatif sıcaklıkta, olasılık dağılımı tersine döner; yani normalde en az olası olan token'lar, en olası hale gelir. Sıfıra negatif taraftan yaklaşıldığında, model yine deterministik çıktılar üretir, ancak bu sefer en az olası token'ları seçer.
Deneyi gerçekleştirmek için OpenAI modellerinin sıcaklık kısıtlamaları nedeniyle yerel olarak çalıştırılabilen bir model gerekti. Bu amaçla Meta'nın LLaMA modeli ve llama.cpp kullanıldı. llama.cpp'nin örnekleme fonksiyonunda yapılan küçük bir değişiklikle, negatif sıcaklık değerlerinin uygulanması mümkün hale getirildi. Bu modifikasyon sayesinde, teorik olarak en az olası token'ların seçildiği "maksimum derecede tuhaf" sonuçlar elde edildi. Bu deney, dil modellerinin iç işleyişi ve olasılık dağılımlarının manipülasyonu hakkında yeni bakış açıları sunuyor.
Negatif sıcaklıkta örnekleme, dil modellerinin iç mekanizmalarını daha derinlemesine anlamamızı sağlayarak, gelecekteki yaratıcı ve kontrol edilebilir metin üretim yöntemlerine kapı aralıyor.