Bir araştırmacı, Opus 4.5 ve GPT-5.2 tabanlı yapay zeka ajanlarını kullanarak QuickJS JavaScript yorumlayıcısındaki bir sıfır gün zafiyeti için exploit yazma deneyi gerçekleştirdi. Çeşitli modern exploit önleme mekanizmaları ve kısıtlamalar altında (bilinmeyen heap başlangıç durumu, hardcoded offset'lerin yasaklanması gibi) ajanlar, 6 farklı senaryoda 40'tan fazla farklı exploit üretmeyi başardı. Özellikle GPT-5.2 tüm senaryoları çözerken, Opus 4.5 sadece iki senaryoda başarısız oldu. Ajanlar, zafiyeti hedef sürecin adres alanını okuyup değiştirebilen bir 'API'ye dönüştürdü ve bu yeteneği kaynak kodu okuma, hata ayıklama ve deneme yanılma yoluyla geliştirdi.
Deneyler, ajanların çoğu zorluğu bir saatten kısa sürede ve nispeten düşük maliyetle çözdüğünü gösterdi; 30 milyon token limiti, en zor görev hariç tümü için yeterli oldu ve Opus 4.5 için bu maliyet yaklaşık 30 USD'ye denk geldi. En zor görevde, GPT-5.2'den diskte belirli bir yola belirli bir dize yazması istendi. Bu görev, adres alanı düzeni rastgeleleştirmesi (ASLR), yürütülemez bellek, tam RELRO, CFI, donanım destekli shadow-stack ve shell yürütmesini engelleyen seccomp sandbox gibi birçok koruma mekanizması aktifken gerçekleştirildi. GPT-5.2, birden fazla fonksiyon çağrısını zincirleyerek akıllıca bir çözüm üretti.
Bu çalışmanın ana sonucu, siber güvenlik saldırılarının birçok bileşeninin endüstrileşmesine hazırlıklı olmamız gerektiğidir. Yakın gelecekte, bir devletin veya grubun exploit geliştirme, ağlara sızma, ayrıcalık yükseltme ve ağlarda kalma yeteneğini sınırlayan faktörün istihdam ettikleri hacker sayısı değil, zaman içindeki token üretim kapasiteleri olacağı varsayılmalıdır. Bu senaryoya hazırlıksız yakalanmaktansa, üzerinde düşünerek çaba harcamak daha iyidir.
Yapay zeka modellerinin siber güvenlik saldırılarının otomasyonunda ve exploit üretiminde insan kapasitesini aşarak yeni bir dönemi başlatma potansiyeli taşıyor.