Unicode karakterlerin görsel olarak birbirine benzemesi (confusables), özellikle kimlik avı saldırıları gibi güvenlik riskleri taşıyan önemli bir sorundur. Daha önceki yaklaşımlar, karakterlerin farklı yazı tiplerinde nasıl göründüğünü dikkate almadığı için bu alanda bir boşluk bulunuyordu. "confusable-vision" adlı yeni bir araç, bu boşluğu doldurmak amacıyla geliştirildi. Bu araç, Latin olmayan karakterleri Latin hedeflerine (a-z, 0-9) eşleyen 1.418 TR39 confusable çiftini alır, bu karakterleri sistemdeki 230 farklı yazı tipinde işler ve her bir eşleşme için SSIM (Yapısal Benzerlik Endeksi Ölçütü) hesaplar.
SSIM, iki görüntüyü parlaklık, kontrast ve yapısal desenler açısından karşılaştıran ve -1 ile 1 arasında bir puan veren bir ölçümdür; 1.0, görüntülerin piksel olarak aynı olduğu anlamına gelir. confusable-vision'ın iki aşamalı süreci, ilk olarak karakterleri 48x48 gri tonlamalı PNG'ler olarak oluşturur ve ardından tüm geçerli kaynak/hedef kombinasyonları için SSIM puanlarını hesaplar. Toplamda 235.625 karşılaştırma yapılır. Gri tonlamalı işleme, kenar ayrıntılarını korumak için bilinçli olarak seçilmiştir.
Yapılan kapsamlı analizler sonucunda, incelenen confusable çiftlerinin %96,5'inin görsel olarak düşük benzerlik puanı aldığı ortaya çıktı. Ancak, 82 çiftin en az bir yazı tipinde piksel olarak tamamen aynı olduğu tespit edildi. Bu bulgu, potansiyel güvenlik açıklarının hala mevcut olduğunu ve görsel benzerliğin sadece Unicode verilerine dayanarak değil, gerçek render edilmiş glifler üzerinden değerlendirilmesi gerektiğini göstermektedir. SSIM'in seçilmesinin nedeni ise, altyapı gerektirmeyen deterministik bir matematiksel fonksiyon olması ve böylece sonuçların kolayca tekrarlanabilirliğini sağlamasıdır.
Bu çalışma, Unicode karakterlerin görsel benzerliğinin sadece teorik değil, farklı yazı tiplerinde pratik olarak nasıl ortaya çıktığını nicel bir şekilde ortaya koyarak siber güvenlik tehditlerinin anlaşılmasına önemli bir katkı sağlıyor.