Büyük dil modelleri (LLM'ler) giderek daha fazla kodu insan denetimi olmadan üretiyor, bu da arka kapı enjeksiyonu ve kötü niyetli davranışlar hakkında ciddi endişeleri beraberinde getiriyor. Bu durum, üretilen kodun güvenilirliğini sorgulatmakta ve potansiyel güvenlik açıklarına yol açabilmektedir. Geliştiriciler ve güvenlik uzmanları için, bu tür otomatik olarak oluşturulan kodlardaki gizli tehditleri erken aşamada tespit etmek büyük bir zorluk teşkil etmektedir.
Bu makale, güvenilmeyen kod üreten modelleri anlamsal yörünge analizi (semantic orbit analysis) aracılığıyla doğrulayan yeni bir yapay zeka kontrol çerçevesi olan Cross-Trace Verification Protocol (CTVP) adlı bir yöntem sunuyor. CTVP, potansiyel olarak kötü niyetli kodu doğrudan çalıştırmak yerine, modelin anlamsal olarak eşdeğer program dönüşümleri boyunca yürütme izlerinin kendi tahminlerini kullanır. Bu tahmin edilen izlerdeki tutarlılık modellerini analiz ederek, arka kapıları gösteren davranışsal anormallikler tespit edilebilir. Bu yaklaşım, doğrulamanın temel üretim maliyetine oranını ölçen Adversarial Robustness Quotient (ARQ) kavramını tanıtır ve bunun yörünge boyutuyla üstel olarak büyüdüğünü gösterir.
Teorik analizler, bilgi-teorik sınırlamalar ortaya koyarak, düşmanların temel uzay karmaşıklığı kısıtlamaları nedeniyle eğitim yoluyla performanslarını artıramayacaklarını kanıtlar (non-gamifiability). Bu çalışma, anlamsal yörünge analizinin kod üretimi görevleri için ölçeklenebilir, teorik olarak temellendirilmiş bir yapay zeka kontrol yaklaşımı sunduğunu ortaya koymaktadır. Bu sayede, LLM'lerin ürettiği kodun güvenilirliği artırılabilir ve siber güvenlik riskleri azaltılabilir.
Büyük dil modelleri tarafından üretilen kodlardaki gizli kötü niyetli davranışları, kodu doğrudan çalıştırmadan tespit etmek için teorik olarak sağlam ve ölçeklenebilir bir yöntem sunuyor.