Önek toplamları (prefix sums), bir veri dizisindeki her eleman için o ana kadar olan değerlerin kümülatif toplamını hesaplama işlemidir. Örneğin, günlük satış verilerinden yılbaşından itibaren toplam satışları bulmak bu işleme bir örnektir. C dilinde basit bir döngü ile kolayca uygulanabilen bu işlem, data[i] += data[i-1] şeklinde ilerler. Bu ardışık bağımlılık nedeniyle, bir CPU çekirdeğinin teorik olarak her bir giriş için bir döngüye ihtiyacı vardır, bu da modern işlemcilerde saniyede milyarlarca tam sayı işleme kapasitesi anlamına gelir.
Ancak, daha yüksek performans elde etmek için SIMD (Single Instruction, Multiple Data) talimatları kullanılabilir. ARM işlemcilerindeki NEON talimatları, tek bir komutla birden fazla değeri aynı anda işleyebilir. Örneğin, dört tam sayıyı tek bir SIMD yazmacında işlemek mümkündür. Ne var ki, bir SIMD yazmacı içindeki önek toplamını doğrudan hesaplamak, kaydırma ve toplama işlemleri gerektirdiğinden ve yine ardışık bağımlılıklar içerdiğinden, tekil (scalar) yaklaşımdan daha yavaş olabilir. Bu durum, SIMD'nin her zaman doğrudan bir performans artışı sağlamadığını gösterir.
Makale, ARM NEON'un özel araya eklemeli yükleme ve depolama (interleaved load and store) talimatlarını kullanarak bu sorunu aşan bir çözüm sunuyor. Bu yöntemle, 16 değer aynı anda yüklenir ve veriler yeniden düzenlenerek dört paralel bloğa ayrılır. Her blok üzerinde önek toplamı eş zamanlı olarak hesaplanır. Ardından, bu blokların toplamları üzerinde de önek toplamı uygulanır. Bu optimize edilmiş SIMD yaklaşımı, teorik olarak tekil yaklaşıma göre iki kat daha hızlı performans sunarak, saniyede gigabaytlarca veri işleme kapasitesine ulaşmayı mümkün kılar. Bu teknik, özellikle büyük veri setlerinde kümülatif hesaplamalar gerektiren uygulamalar için kritik öneme sahiptir.
ARM NEON gibi SIMD mimarileri, önek toplamları gibi ardışık bağımlılık içeren işlemlerde bile akıllı veri düzenleme ve paralel işleme teknikleriyle önemli performans artışları sağlayabilir.