"Square Minus Square" adlı yeni bir benchmark çalışması, yapay zeka kodlama ajanlarının karmaşık geometrik problemleri çözme yeteneklerini test etti. Bu benchmark, iki boyutlu bir düzlemde yer alan, eksenlere hizalı olmayan ve farklı boyutlarda olabilen iki kareden birincisinin alanı ile ikincisiyle kesişiminin farkını üçgenlere ayırma görevini içeriyor. Amaç, en az sayıda üçgen kullanarak bu alanı doğru bir şekilde temsil etmekti. Görev, bağımlılıkları olmayan tek bir Rust fonksiyonu olarak uygulanacaktı.Çalışmada, çeşitli kodlama ajanları bu fonksiyonu uygulamakla görevlendirildi ve deneyi yapan kişi de yapay zeka kullanmadan kendi çözümünü geliştirdi. Sonuçları görselleştiren ve ekran görüntüleri ile video kaydı alabilen özel bir framework kullanıldı. Ajanların, ürettikleri kodun çıktısını ekran görüntüleri aracılığıyla inceleyerek hataları düzeltmeleri teşvik edildi. Her ajan için iki deneme yapıldı ve daha iyi olan sonuç seçildi.Elde edilen sonuçlar dikkat çekiciydi: Bugüne kadar hiçbir büyük dil modeli (LLM) bu görevi tamamen başarılı bir şekilde çözemedi. Modellerin neredeyse tamamı, hataları düzeltmek için ekran görüntüleri oluşturup bunları inceledi ve bu süreçte şaşırtıcı derecede iyi performans gösterdiler, gerçek sorunları doğru bir şekilde tespit ettiler. Bu durum, geri bildirim döngüsünün önemini vurguluyor. Geliştirme sürecinde en iyi modeller (Opus, Gemini 3 Pro, GPT 5.2) bazen başarılı olsa da, bazen de çöken kodlar ürettiler. Gemini 3 Flash ise görevi iyi çözmüş gibi görünse de gereksiz köşe noktaları ve üçgenler ekledi. Bu benchmark, yapay zeka kodlama ajanlarının karmaşık ve hassas geometrik problemlerde hala zorlandığını gösteriyor.
Yapay zeka kodlama ajanları, karmaşık geometrik problemleri çözmede ve görsel geri bildirimle hata ayıklamada önemli ilerleme kaydetse de, henüz tam ve hatasız çözümler üretemiyorlar.