İnsanlar sosyal bağlama göre farklı kişilikler sergilerken, Büyük Dil Modelleri (LLM'ler) de benzer bir esneklik göstererek çeşitli kişilikleri ve davranışları benimseyebilirler. Mevcut yaklaşımlar genellikle bu tür davranışları harici bilgi (prompting, retrieval-augmented generation (RAG) veya ince ayar (fine-tuning) gibi) aracılığıyla adapte eder. Ancak bu çalışma, LLM'lerin farklı davranışlara uyum sağlamak için gerçekten harici bağlama veya parametrelere ihtiyaç duyup duymadığını, yoksa bu bilginin zaten parametrelerine gömülü olup olmadığını sorguluyor. Araştırmacılar, LLM'lerin parametre alanlarında zaten kişiliğe özel alt ağlar (subnetworks) barındırdığını gösteriyor.
Makale, küçük kalibrasyon veri setleri kullanarak farklı kişiliklerle ilişkili belirgin aktivasyon imzalarını tanımlıyor. Bu istatistikler rehberliğinde, hafif kişilik alt ağlarını izole eden bir maskeleme stratejisi geliştiriliyor. Bulgulara dayanarak, introvert-ekstrovert gibi ikili zıt kişiliklere yol açan zıt alt ağların modelden nasıl keşfedilebileceği de tartışılıyor. İkili zıtlık senaryolarında ayrımı daha da geliştirmek için, zıt kişilikler arasındaki istatistiksel farklılıktan sorumlu parametreleri tanımlayan bir karşılaştırmalı budama stratejisi (contrastive pruning) sunuluyor. Bu yöntem tamamen eğitim gerektirmeyen (training-free) bir yaklaşım olup, yalnızca dil modelinin mevcut parametre alanına dayanıyor.
Çeşitli değerlendirme ortamlarında, ortaya çıkan alt ağlar, harici bilgi gerektiren temel yöntemlere göre önemli ölçüde daha güçlü kişilik uyumu sergilerken, aynı zamanda daha verimli oldukları gözlemleniyor. Bu bulgular, çeşitli insan benzeri davranışların LLM'lerde sadece indüklenmekle kalmayıp, aynı zamanda parametre alanlarına zaten gömülü olduğunu öne sürüyor. Bu durum, büyük dil modellerinde kontrol edilebilir ve yorumlanabilir kişiselleştirmeye yönelik yeni bir bakış açısı sunuyor.
Büyük dil modellerinin, harici müdahaleye gerek kalmadan içsel olarak farklı kişilikleri barındırdığını ve bu kişiliklerin doğrudan parametre uzayından erişilebilir olduğunu ortaya koyuyor.