Ana Sayfa

Ajan Yapay Zeka Güvenliğinde Güveni Önemsiz Kılmak

1 dk okuma

DesoPK'nin "Make Trust Irrelevant: A Gamer’s Take on Agentic AI Safety" başlıklı makalesi, ajan tabanlı yapay zeka (Agentic AI) güvenliğinin mevcut yaklaşımını eleştiriyor. Endüstrinin ajanları güvenilir kılmaya çalışmak yerine, güveni tamamen önemsiz hale getirmesi gerektiğini savunuyor. Makale, güvenin bir güvenlik mekanizması olmadığını ve düşmanca sistemlerde niyetin değil, mekaniklerin kontrol yüzeyi olduğunu vurguluyor. Bir sistem istismar edilebilir durumdaysa, oyuncular, kötü amaçlı yazılımlar veya sosyal mühendislik yoluyla kandırılmış bir ajan tarafından mutlaka istismar edilecektir.

Günümüzdeki ajan tabanlı yapay zeka sistemlerinde eksik olan katmanın, daha iyi hizalama veya daha güçlü istemler olmadığını belirtiyor. Bunun yerine, herhangi bir ajanın – hizalı, kafası karışık veya kötü niyetli olsun – yanlışlıkla "tanrı moduna" geçmesini engelleyecek, çekirdek (kernel) tarafından uygulanan katı yetki sınırları gerektiğini öne sürüyor. Makale, bunun ahlaki bir tartışmadan ziyade bir mühendislik tartışması olduğunu ve her yüksek profilli ajan yapay zeka hatasının temelde aynı sorundan kaynaklandığını ifade ediyor: ajanlara ortam yetkisi (dosya sistemi erişimi, ağ erişimi, kimlik bilgileri, kabuk yürütme) veriliyor ve güvenlik, istemler veya politikalar gibi yumuşak kısıtlamalarla sağlanmaya çalışılıyor. Ancak düşmanca girdiler (kötü niyetli veya kazara) ortaya çıktığında, sistem tasarımcılarının amaçladığı şeyi değil, yapmasına izin verilen şeyi tam olarak yapıyor. Bu durum genellikle "istem enjeksiyonu" veya "hizasızlık" olarak tanımlansa da, sistem perspektifinden bakıldığında, sert bir izin sınırı olmayan "kafa karışmış vekil" (confused deputy) sorunudur. Ajan "kontrolden çıkmadı"; sistem ona bir kaldıraç verdi ve çekmemesini umdu. Makale, uzak gelecekteki varsayımsal senaryolara değil, halihazırda yaşanan yerel ajanların güvensiz eylemlere kandırılması, kimlik bilgilerinin çalınması veya otomasyonun kontrolden çıkması gibi somut ve maliyetli hatalara odaklanıyor. Temel varsayım, ajanın akıl yürütmesinin güvenilmez, ortamın ise düşmanca kabul edilmesi gerektiğidir. Sunucu tarafı kontrollerin ve model düzeyinde hizalamanın, yerel etkileri tam olarak yönetemediği ve niyet üzerine kurulu olduğu için yetersiz kaldığı belirtiliyor.

İçgörü

Ajan tabanlı yapay zeka sistemlerinin güvenliği, güvenilir ajanlar yaratmak yerine, katı yetki sınırları ile güveni tamamen ortadan kaldırarak sağlanmalıdır.

Kaynak