Büyük dil modelleri (LLM) destekli yapay zeka ajanları, SWE-bench gibi kıyaslama testlerinde gösterildiği üzere, statik hata düzeltme gibi yazılım mühendisliği görevlerini otomatikleştirmede güçlü yetenekler sergilemiştir. Ancak, gerçek dünyada olgun yazılımların geliştirilmesi genellikle karmaşık gereksinim değişiklikleri ve uzun vadeli özellik yinelemelerine dayanır. Mevcut statik, tek seferlik onarım paradigmaları bu dinamik süreci yeterince yakalayamamaktadır. Bu boşluğu doldurmak amacıyla, sürekli entegrasyon (CI) döngüsü üzerine inşa edilmiş ilk depo düzeyinde kıyaslama testi olan SWE-CI tanıtılmıştır.
SWE-CI'ın temel amacı, kod üretimi için değerlendirme paradigmasını statik, kısa vadeli "fonksiyonel doğruluktan" dinamik, uzun vadeli "sürdürülebilirliğe" kaydırmaktır. Bu kıyaslama testi, her biri gerçek dünya kod depolarında ortalama 233 günlük bir evrim geçmişini ve 71 ardışık commit'i kapsayan 100 görevden oluşmaktadır. Ajanların bu görevleri sistematik olarak çözebilmesi için onlarca tur analiz ve kodlama yinelemesi yapması gerekmektedir.
SWE-CI, yapay zeka ajanlarının uzun vadeli yazılım evrimi boyunca kod kalitesini ne kadar iyi sürdürebileceğine dair değerli bilgiler sunmaktadır. Bu yeni yaklaşım, ajanların sadece anlık sorunları çözmekle kalmayıp, aynı zamanda karmaşık ve sürekli değişen yazılım ortamlarında kod tabanlarının genel sağlığını ve sürdürülebilirliğini nasıl etkilediğini anlamak için kritik bir adımdır.
Bu kıyaslama testi, yapay zeka ajanlarının gerçek dünya yazılım geliştirme süreçlerinde uzun vadeli kod sürdürülebilirliğini ne kadar iyi sağlayabildiğini anlamak için kritik bir adımdır.