Ana Sayfa

LoRA Modüllerini Yeniden Kullanma: Adaptif Birleştirmenin Gerçek Potansiyeli

1 dk okuma

Açık kaynaklı önceden eğitilmiş modeller için yaygın olarak bulunan ince ayarlı LoRA modülleri, performansı artırmak amacıyla adaptif birleştirme yöntemlerine olan ilgiyi artırmıştır. Bu yöntemler genellikle bir havuzdan LoRA'ları seçmeyi ve göreve özel bir veri kümesine göre birleştirme katsayılarını ayarlamayı içerir. Adaptif birleştirme yöntemleri bazı durumlarda iyileşmeler gösterse de, daha önceki çalışmalar Hugging Face Hub gibi model depolarında "doğal ortamda" bulunan LoRA'ları yeniden kullanmayı denememiştir.

Bu boşluğu doldurmak amacıyla, Llama 3.1 8B-Instruct dil modelinden eğitilmiş yaklaşık 1.000 kullanıcı katkılı LoRA'dan oluşan bir havuzdan geri dönüşümü ele aldık. Ampirik çalışmamız, metodolojik tasarım alanı üzerinde geniş bir arama yoluyla tasarlanmış yeni bir yönteme ek olarak, çeşitli adaptif ve adaptif olmayan birleştirme yöntemlerini içermektedir. Adaptif birleştirme yöntemlerinin temel modele göre performansı artırabildiğini, ancak birleştirme katsayılarını ayarlamak için kullanılan aynı veriler üzerinde yeni bir LoRA eğitmekten sınırlı fayda sağladığını gösteriyoruz.

Ayrıca, birleştirilecek LoRA'ların özel seçiminin çok az öneme sahip olduğunu ve hatta rastgele başlatılmış parametre değerlerine sahip LoRA'ların kullanılmasının benzer performans verdiğini bulduk. Bu durum, geri dönüştürülmüş LoRA'lardan adaptif birleştirmenin, pozitif görevler arası transferi sağlamaktan ziyade, öncelikle bir tür düzenlileştirme etkisi aracılığıyla çalıştığı olasılığını ortaya koymaktadır. Önceki çalışmaların neden başarılı olduğunu daha iyi anlamak için, havuzda yüksek oranda ilgili LoRA'lar olduğunda pozitif transferin gerçekten mümkün olduğunu doğruladık. Model kontrol noktalarını ve kodunu çevrimiçi olarak yayınlıyoruz.

İçgörü

Adaptif LoRA birleştirme yöntemlerinin, özellikle rastgele başlatılmış LoRA'larla bile benzer performans göstermesi, bu tekniklerin temel olarak düzenlileştirme etkisiyle çalıştığını ve görevler arası pozitif transferin ancak çok ilgili LoRA'lar bulunduğunda mümkün olduğunu ortaya koyuyor.

Kaynak