Yazar, SIMD paradigmasını, özellikle de AVX-512'yi ilk kez keşfetme deneyimini paylaşıyor. Geçmişte AVX-512 ile ilgili CPU ısınması ve saat hızının düşmesi gibi endişeler olsa da (artık geçerli olmayabilir), yazılım tarafında programlamasının hala zorlu olduğu belirtiliyor. Yazarın bu çalışmadaki iki temel amacı var: Birincisi, makul bir geliştirme çabasıyla bu ekstra işlem şeritlerinden ne kadar performans artışı elde edilebileceğini görmek (tek hassasiyetli sayılar için ideal olarak 16 kat). İkincisi ise, paralel programlama konusunda SIMD düşünce yapısını SIMT (özellikle CUDA) ile karşılaştırmak.
SIMD için uygun bir kıyaslama problemi bulmanın zorluğuna dikkat çekiliyor. İlginç problemlerin çoğunun bellek sınırlı olması, SIMD'nin ise işlem sınırlı problemlerden en iyi verimi alması bu zorluğun ana nedeni. Makalede, SIMD'yi tanıtmak için sıkça kullanılan axpy_scalar örneğinin aslında kötü bir seçim olduğu vurgulanıyor. Bu örnekte, skaler kodda bile işlem birimlerinin (ALU) çoğu zaman boşta kaldığı, çünkü veri beslemesinin (bellek erişimi) darboğaz olduğu açıklanıyor. Dolayısıyla, 16 şeritli bir SIMD ile bile bu örnekte sadece %8'lik bir hız artışı görüldüğü, beklenen 16 katın çok altında kaldığı belirtiliyor. Yazar, bu nedenle K-Means algoritmasını, denetimsiz bir kümeleme algoritmasını, kendi test senaryosu olarak seçtiğini ifade ediyor. K-Means'in basit ve işlem yoğun bir algoritma olması, AVX-512'nin potansiyelini göstermek için daha uygun olduğunu gösteriyor.
AVX-512 gibi gelişmiş SIMD mimarilerinin gerçek performans potansiyelini ortaya çıkarmak için doğru, işlem yoğun problemlerin seçilmesi ve programlama yaklaşımlarının dikkatlice değerlendirilmesi gerekiyor.