Quesma'nın yaptığı bir deneyde, yaklaşık 40MB boyutundaki ikili dosyalara (binaries) gizli arka kapılar yerleştirildi ve yapay zeka ajanlarından (özellikle Claude Opus 4.6) bu arka kapıları Ghidra ile birlikte bulmaları istendi. Amaç, yapay zeka ajanlarının kötü amaçlı yazılım tespitindeki yeteneklerini, kaynak koduna erişim olmadan ikili dosyalarda arka kapı bulma bağlamında değerlendirmekti. Deneyin sonuçları şaşırtıcıydı; yapay zeka modelleri, bu tür özel tersine mühendislik yeteneklerine sahip olmaları beklenmemesine rağmen bazı gizli arka kapıları tespit edebildi.
Ancak, bu yaklaşım henüz üretim ortamları için hazır değil. En iyi model olan Claude Opus 4.6 bile, küçük ve orta boyutlu ikili dosyalardaki nispeten bariz arka kapıları yalnızca %49 oranında tespit edebildi. Daha da kötüsü, çoğu model yüksek bir yanlış pozitif oranına sahipti, yani temiz dosyaları kötü amaçlı olarak işaretliyordu. Makale, Shai Hulud 2.0 ve Notepad++ gibi tedarik zinciri saldırıları ile Çin güneş enerjisi invertörleri ve elektrikli otobüslerdeki ürün yazılımı (firmware) güvenlik açıklarını örnek göstererek ikili analizinin önemini vurguluyor. Kaynak kodunun aksine, ikili dosyaların analizi çok daha zorlu bir alan çünkü derleme süreci yüksek seviyeli soyutlamaları kaybolan düşük seviyeli makine koduna dönüştürüyor.
Yapay zeka modellerinin ikili dosyalardaki gizli arka kapıları tespit etme yeteneği, siber güvenlik alanında yeni potansiyeller sunsa da, mevcut performansları ve yüksek yanlış pozitif oranları nedeniyle henüz pratik uygulamalar için yeterli değil.