Mozilla, büyük dil modellerinde (LLM) çok dilli ve bağlama duyarlı güvenlik bariyerlerinin performansını inceleyen teknik bir değerlendirme yayınladı. Özellikle insani yardım senaryolarında, bu bariyerlerin İngilizce ve Farsça yanıtları aynı politikalar altında nasıl puanladığını analiz eden çalışma, puanlama boşlukları, mantık yürütme sorunları ve tutarlılık zorluklarını ortaya koyuyor. LLM'lerin farklı dillerde farklı kalitede veya çelişkili bilgiler üretme eğilimi olduğu biliniyor; bu araştırma, bu tutarsızlıkların güvenlik bariyerleri tarafından devralınıp devralınmadığını veya güçlendirilip güçlendirilmediğini anlamayı amaçlıyor.
Bu çalışma, Mozilla Vakfı'ndan Roya Pakzad'ın çok dilli yapay zeka güvenliği değerlendirmeleri ile Mozilla.ai'den Daniel Nissani'nin any-guardrail geliştirme projelerini birleştiriyor. Pakzad'ın çalışması insani vaka çalışması senaryosunu ve güvenlik bariyeri politikalarını sağlarken, Nissani'nin açık kaynak any-guardrail paketi teknik uygulamayı mümkün kıldı. any-guardrail, sınıflandırıcı tabanlı ve üretken güvenlik bariyeri modelleri için birleşik ve özelleştirilebilir bir arayüz sunarak, kuruluşların alana özgü dağıtımlarda riski yönetmelerine yardımcı oluyor.
Araştırma, LLM yanıtları İngilizce olmayan dillerde olduğunda güvenlik bariyerlerinin nasıl davrandığını, bir politikanın yazıldığı dilin (örneğin Farsça veya İngilizce) bariyerin kararlarını etkileyip etkilemediğini ve bu insani vaka çalışması için güvenlik etkilerini ele aldı. any-guardrail çerçevesi tarafından desteklenen FlowJudge, Glider ve AnyLLM (GPT-5-nano) olmak üzere üç farklı güvenlik bariyeri test edildi. Bulgular, özellikle çok dilli bağlamlarda, LLM güvenlik bariyerlerinin geliştirilmesi ve uygulanmasında dikkat edilmesi gereken önemli zorluklara işaret ediyor.
Büyük dil modellerinin çok dilli güvenlik bariyerleri, farklı dillerde tutarsızlıklar sergileyerek insani yardım gibi kritik alanlarda güvenlik ve güvenilirlik sorunları yaratabilir.