Yazar, Google'ın küresel Street View kapsama alanını belgeleyen, her noktanın son yakalanma yılını ve ayını içeren bir veri kümesi keşfetti. Bu makalede, yazar bu veri kümesini Parquet formatına dönüştürmeyi ve coğrafi desenlerini incelemeyi amaçlıyor. Analiz için güçlü bir iş istasyonu kullanılıyor: 5.7 GHz AMD Ryzen 9 9950X CPU, 96 GB DDR5 RAM ve 4 TB Crucial T700 NVMe SSD gibi yüksek performanslı bileşenlere sahip. İşletim sistemi olarak Windows 11 Pro üzerinde Microsoft'un Ubuntu for Windows sürümü kullanılıyor, çünkü yazarın Nvidia GTX 1080 GPU'su Windows'ta daha iyi sürücü desteği sunarken, ArcGIS Pro gibi bazı yazılımlar sadece Windows'u destekliyor.
Veri analizi sürecinde DuckDB v1.4.3 ve onun H3, JSON, Lindel, Parquet ve Spatial uzantıları kullanılıyor. Yazar, DuckDB'yi her başlatmada bu uzantıları otomatik olarak yükleyecek şekilde yapılandırıyor. Haritalar ise QGIS sürüm 3.44 ile oluşturuluyor. QGIS, dünya genelinde aylık yaklaşık 15 milyon uygulama başlatmasıyla popülaritesi artan bir masaüstü coğrafi bilgi sistemi uygulamasıdır. Esri'den temel haritalar eklemek için QGIS'in HCMGIS eklentisi kullanılıyor.
Analiz için Emily'nin web sitesinden 131 adet JSON dosyası indiriliyor. Bu dosyalar sıkıştırılmamış halde 647 MB boyutunda ve en son 4 Aralık'ta güncellenmiş. Yazar, bu JSON dosyalarındaki verileri DuckDB'de bir tabloya aktarıyor ve ardından Parquet formatına dönüştürme işlemini başlatıyor. Makale, bu büyük coğrafi veri setini verimli bir şekilde işlemek ve görselleştirmek için kullanılan teknik adımları ve araçları detaylandırıyor.
Bu çalışma, büyük coğrafi veri setlerinin işlenmesi, depolanması ve görselleştirilmesi için modern araç ve yöntemlerin nasıl kullanılabileceğini pratik bir örnekle gösteriyor.