Yazar, onemillionscreenshots.com sitesinin web sitelerini görsel olarak keşfetme potansiyelinden etkilenirken, sitenin popüler Common Crawl verilerini kullanmasından rahatsızlık duyduğunu belirtiyor. Popülerliğin her zaman kaliteyle eşanlamlı olmadığını, McDonald's örneğiyle açıklıyor; en popüler olanın genellikle en iyi değil, en geniş kitleye hitap eden ortalama bir deneyim sunduğunu vurguluyor. Bu durum, yazar için "popüler" olanın çoğu zaman kaçınılması gereken bir filtre haline geldiğini ifade ediyor.
Bu popülerlik odaklı yaklaşıma alternatif olarak yazar, "small web" kavramını öne sürüyor. Small web, içeriğin tıklama oranlarından daha değerli olduğu, ticarileşmenin aşındırıcı etkilerinden büyük ölçüde etkilenmeyen, özgün ve kaliteli içeriğin bulunduğu bir internet köşesi olarak tanımlanıyor. Yazar, tam da bu alana odaklanan keşif ve öneri araçları üzerinde çalıştığını ve bu projesi için gerekli verilerin çoğuna zaten sahip olduğunu belirtiyor. Tek ihtiyacının, small web sitelerinin ekran görüntülerini almak olduğunu ifade ediyor.
Alan adlarını toplama sürecini daha sonra detaylandıracağını belirten yazar, ekran görüntülerini almanın nispeten kolay olduğunu vurguluyor. Özellikle, ekran görüntülerini işleme ve düzenleme adımlarının tekrarlayıcı olmasından dolayı, bu adımları birleştirmek için Self-Organizing Maps (SOMs) kullanmaya karar verdiğini açıklıyor. Yazar, SOM'ların basit bir uygulamaya sahip olmalarına rağmen son derece faydalı olabileceğini ve torch kütüphanesi ile yaklaşık 10 satır kodla temel bir SOM oluşturulabileceğini belirtiyor. Bu yenilikçi yaklaşım, small web'in zengin ve özgün içeriğini daha anlamlı bir şekilde keşfetmek için güçlü bir yöntem sunuyor.
Yazar, popüler web sitelerinin aksine, özgün ve kaliteli içeriğin bulunduğu "small web"i keşfetmek için Self-Organizing Maps (SOMs) kullanarak yenilikçi bir görsel keşif aracı geliştiriyor.