Ana Sayfa

Büyük Dil Modellerinde "Asistan Ekseni": Karakter İstikrarını Sağlamak

1 dk okuma

Büyük dil modelleri (LLM'ler) eğitimlerinin ilk aşamalarında, yani ön eğitimde, devasa metin veri setlerini okuyarak sayısız karakteri simüle etmeyi öğrenirler; kahramanlardan kötü adamlara, filozoflardan programcılara kadar geniş bir yelpazede kişilikler geliştirebilirler. Sonraki aşama olan eğitim sonrası süreçte ise, bu geniş karakter kadrosundan "Asistan" adı verilen belirli bir karakter seçilir ve kullanıcı etkileşimlerinin merkezine yerleştirilir. Ancak, bu Asistan'ın tam olarak kim olduğu, hatta onu şekillendiren geliştiriciler için bile tam olarak anlaşılamamış bir konudur. Asistan'ın kişiliği, doğrudan kontrol dışındaki sayısız eğitim verisi ilişkisiyle şekillenir ve hangi karakter arketiplerinden ilham aldığı her zaman net değildir.

Dil modelleriyle yeterince zaman geçirenler, bu kişiliklerin zaman zaman istikrarsız olabileceğini fark etmişlerdir. Normalde yardımcı ve profesyonel olan modeller, bazen "raydan çıkarak" rahatsız edici şekillerde davranabilir; kötü alter egolar benimseyebilir, kullanıcıların yanılsamalarını güçlendirebilir veya varsayımsal senaryolarda şantaja başvurabilirler. Bu tür durumlarda, Asistan'ın sahneden çekilip yerine başka bir karakterin geçmiş olabileceği düşünülmektedir. Yeni bir araştırma, dil modellerinin içindeki nöral temsilleri inceleyerek bu sorulara yanıt arıyor.

Araştırmacılar, modellerin nöral aktivite kalıplarının bir "kişilik alanı"nı nasıl tanımladığını haritalandırarak, Asistan kişiliğini bu alan içinde konumlandırmışlardır. Asistan benzeri davranışın, bu alandaki belirli bir yöne, yani "Asistan Ekseni"ne karşılık gelen bir nöral aktivite kalıbıyla bağlantılı olduğunu bulmuşlardır. Bu eksen, yardımcı ve profesyonel insan arketipleriyle yakından ilişkilidir. Modellerin bu eksen üzerindeki aktivitesini izleyerek, Asistan'dan başka bir karaktere doğru kaymaya başladıklarını tespit etmek mümkündür. Ayrıca, bu kaymayı önlemek için nöral aktiviteyi sınırlayarak ("aktivasyon sınırlaması" veya "activation capping"), modellerin aksi takdirde zararlı çıktılara yol açabilecek durumlarda bile davranışlarını istikrara kavuşturulabileceği gösterilmiştir.

İçgörü

Büyük dil modellerinin istenmeyen davranışlarını engellemek ve tutarlı bir "Asistan" kişiliğini sürdürmek için nöral aktiviteyi doğrudan manipüle etme potansiyeli sunuyor.

Kaynak