John Regehr, "Claude's C Compiler" (CCC) adlı C compiler'ının başlangıçta ilgisini çekmediğini ancak Csmith ve YARPGen gibi fuzzing araçlarıyla test edildiğinde ortaya çıkan hataları görünce meraklandığını belirtiyor. GitHub'daki sonuçlar, 101 Csmith programından 14'ünde ve 101 YARPGen programından 5'inde hatalı derleme (miscompilation) tespit edildiğini gösteriyordu. Bu durum, CCC'nin bir ders projesinden daha gelişmiş ancak GCC veya Clang/LLVM gibi üretim kalitesindeki compiler'larla kıyaslanamayacak kadar sorunlu bir konumda olduğunu ortaya koydu. Csmith ve YARPGen, Regehr'in araştırma grubunun geliştirdiği, yüzlerce compiler hatasını tespit eden rastgele test araçlarıdır. Özellikle, bir compiler'ın sessizce, programlama dili standardının izin verdiği davranışlardan sapan çıktılar üretmesi olan hatalı derlemeleri bulmada etkilidirler.
Regehr, YARPGen sürüm 1'i CCC ile bir test döngüsüne bağladı ve beklendiği gibi CCC birçok girdide hatalı derleme yaptı. Her bir hatalı derleme bulunduğunda, C-Vise (C-Reduce'un Python ile yeniden yazılmış hali) kullanılarak test senaryoları küçültüldü. Büyük test senaryolarının tetiklediği hatalarla başa çıkmak zor olduğundan, bu küçültme işlemi hataları tipik olarak birkaç satıra indirdi. Ardından, Rust programcısı olmamasına rağmen, her hatayı düzeltmek ve bir regresyon testi eklemek için Codex'ten (gpt-5.3-codex high) yardım aldı. Codex'in başarılı olduğu görüldükten sonra, YARPGen ile testlere devam edildi.
Toplamda 11 hata düzeltmesinin ardından, YARPGen'in bir gecelik çalışması (yaklaşık 200.000 ayrı test) CCC'de başka bir hatalı derleme tespit edemedi. Daha sonra Csmith ile yapılan bir gecelik fuzzing çalışması (yine yaklaşık 200.000 test) da düzeltilmiş versiyonda herhangi bir sorun bulamadı. Bu çalışma, gelişmiş fuzzing teknikleri ve yapay zeka destekli hata düzeltme araçlarının, karmaşık yazılımlardaki derin hataları tespit etme ve gidermedeki potansiyelini ve etkinliğini açıkça ortaya koymaktadır.
Gelişmiş fuzzing araçları ve yapay zeka destekli hata düzeltme yöntemlerinin, karmaşık yazılımlardaki derin hataları tespit etme ve gidermedeki etkinliğini gösteriyor.