Ana Sayfa

AgentRE-Bench: YZ Ajanları Kötü Amaçlı Yazılımları Tersine Mühendislik Yapabilir mi?

1 dk okuma

AgentRE-Bench, yapay zeka (YZ) ajanlarının kötü amaçlı yazılımları (malware) tersine mühendislik yeteneklerini ölçmek için tasarlanmış yeni bir karşılaştırma platformudur. Bu platform, YZ ajanlarına derlenmiş bir ELF ikili dosyası ve bir dizi Linux statik analiz aracı sunarak, insan rehberliği olmadan komuta kontrol (C2) altyapısını, kodlama şemalarını, analiz karşıtı teknikleri ve iletişim protokollerini ne kadar iyi belirleyebildiklerini değerlendirir. Mevcut sürüm Linux/Unix (ELF x86-64) sistemlerini hedeflerken, gelecekte Windows PE desteği de planlanmaktadır.

Geleneksel basit soru-cevap karşılaştırmalarının aksine, AgentRE-Bench gerçek dünya muhakeme yeteneklerini test etmek için tasarlanmıştır. YZ ajanlarının, her bir aracın çıktısının bir sonraki kararı etkilediği 10 ila 25 araç çağrısından oluşan zincirleri yönetmesi beklenir. Ajanlar, hangi araçları kullanacaklarını planlamalı, ham çıktıları (hex dökümleri, disassembli) yorumlamalı ve bulguları sentezlemelidir. Tüm bunlar, görev başına 25 araç çağrısı bütçesi dahilinde gerçekleştirilmelidir. Platform, her cevabı sabit bir gerçek doğruluk (ground truth) ile karşılaştırarak deterministik bir puanlama sistemi kullanır; bu sayede YZ'nin yargıç olarak kullanılmasına gerek kalmaz ve aynı cevap her zaman aynı puanı üretir.

AgentRE-Bench, basit TCP tersine kabuklardan (reverse shell) RC4 şifrelemesi, kontrol akışı düzleştirme ve üçlü hata ayıklama önleme (anti-debug) gibi gelişmiş tekniklere sahip metamorfik dropper'lara kadar değişen 13 farklı zorluk seviyesi sunar. En zorlu seviyeler, entropi analizi, anahtar çıkarma, şifre çözme ve hata ayıklama önleme, süreç enjeksiyonu ve ağdan kaçınma gibi 18'den fazla tekniği tanımlamayı gerektirir. Bu platform, YZ ajanlarının karmaşık ve uzun vadeli tersine mühendislik görevlerindeki yeteneklerini objektif bir şekilde değerlendirmek için önemli bir araçtır.

İçgörü

Yapay zeka ajanlarının gerçek dünya kötü amaçlı yazılım tersine mühendisliği yeteneklerini objektif ve deterministik bir şekilde değerlendiren ilk kapsamlı platformdur.

Kaynak