Ana Sayfa

Büyük Dil Modellerine Yeni Saldırı: Doublespeak ile Temsil Kaçırma

1 dk okuma

Mentaleap.ai tarafından tanıtılan "Doublespeak", büyük dil modellerine (LLM'ler) yönelik yeni ve basit bir bağlam içi temsil kaçırma saldırısıdır. Bu saldırı, zararlı bir anahtar kelimenin (örneğin "bomba") birden fazla bağlam içi örnekte zararsız bir belirteçle (örneğin "havuç") sistematik olarak değiştirilmesiyle çalışır. Bu örnekler, zararlı bir isteğin önüne eklenerek modele sunulur. Bu ikame sonucunda, zararsız belirtecin dahili temsilinin zararlı olanınkine doğru yakınsadığı, böylece zararlı anlamın bir örtmece altında etkili bir şekilde gömüldüğü gösterilmiştir. Sonuç olarak, yüzeysel olarak masum görünen istemler (örneğin "havuç nasıl yapılır?") dahili olarak izin verilmeyen talimatlar ("bomba nasıl yapılır?") olarak yorumlanır ve modelin güvenlik hizalamasını atlatır.

Saldırı mekanizması oldukça basittir: İlk olarak, zararlı bir kelime içeren birkaç örnek toplanır. Ardından, bu zararlı anahtar kelime zararsız bir ikame ile değiştirilir. Son olarak, bu ikameyi içeren zararlı sorgu eklenir. Yapılan analizler, ikame kelimenin dahili temsilinin erken katmanlarda model tarafından zararsız olarak yorumlandığını, ancak son katmanlarda kötü niyetli hedef anlamına dönüştüğünü ortaya koymaktadır. Bu durum, LLM'nin reddetme mekanizmasının kötü niyetli amacı tespit edememesine ve zararlı bir yanıtın üretilmesine yol açar.

Doublespeak, mevcut LLM güvenlik mekanizmalarında kritik bir kör noktayı ortaya çıkarmaktadır. Bu saldırı, yüzey belirteçleri yerine bağlam içi temsilleri hedef alan ilk jailbreak saldırısıdır. Erken katmanlardaki zararsız anlamların, sonraki katmanlarda zararlı semantiğe dönüştüğünü gösterir. Mevcut savunmalar, belirteçleri giriş katmanında kontrol ettiği için bu ilerleyici anlamsal kaymayı atlatır. Ayrıca, GPT-4o, Claude ve Gemini gibi üretim modelleri üzerinde başarıyla test edilmiş ve model aileleri arasında optimizasyon gerektirmeden geniş çapta aktarılabilir olduğu kanıtlanmıştır. Bu bulgular, sağlam bir hizalamanın yalnızca giriş katmanında değil, tüm ileri geçiş boyunca sürekli anlamsal izleme gerektirdiğini göstermektedir.

İçgörü

Büyük dil modellerinin mevcut güvenlik mekanizmalarının, bağlam içi temsillerdeki anlamsal kaymaları tespit edemediğini ve yeni bir güvenlik açığı yarattığını gösteriyor.

Kaynak