Quack-Cluster, büyük ölçekli veri analizi için tasarlanmış yüksek performanslı, sunucusuz bir dağıtık SQL sorgu motorudur. Bu sistem, Python, Ray dağıtık hesaplama framework'ü ve hızlı DuckDB analitik veritabanının birleşik gücünden yararlanarak, AWS S3 veya Google Cloud Storage gibi nesne depolama alanlarındaki veriler üzerinde doğrudan karmaşık SQL sorguları çalıştırmanıza olanak tanır. Geleneksel karmaşık büyük veri sistemlerine hafif ve ideal bir alternatif sunarak, tüm analitik ihtiyaçlarınız için güçlü bir çözüm sağlar.
Quack-Cluster, sunucusuz ve dağıtık yapısıyla öne çıkar. Kullanıcılar, veritabanı altyapısı yönetimiyle uğraşmadan, ölçeklenebilir bir Ray cluster üzerinde SQL sorgularını kolayca çalıştırabilirler. DuckDB'nin bellek içi, sütun tabanlı ve vektörleştirilmiş sorgu motorunun inanılmaz hızı ile Apache Arrow veri formatının verimliliğini kullanarak yüksek hızlı SQL işleme sağlar. Sistem, Parquet ve CSV gibi veri dosyalarını doğrudan nesne depolama alanlarından okuyabilir, bu da ETL (Extract, Transform, Load) ihtiyacını ortadan kaldırır. Python ile yerel entegrasyonu sayesinde mevcut veri bilimi, veri mühendisliği ve makine öğrenimi iş akışlarına sorunsuz bir şekilde dahil edilebilir.
Sistemin mimarisi, basitlik ve ölçeklenebilirlik üzerine kurulmuştur. Bir kullanıcı, Coordinator API'sine standart bir SQL sorgusu gönderir. Coordinator (FastAPI ve SQLGlot kullanarak), sorguyu ayrıştırır, hedef dosyaları belirler ve dağıtık bir yürütme planı oluşturur. Ray Cluster, bu planı birden fazla Worker düğümüne görevler göndererek orkestra eder. Her bir Worker (bir Ray Actor), verinin bir kısmını paralel olarak işlemek için gömülü bir DuckDB örneği çalıştırır. Kısmi sonuçlar Coordinator tarafından verimli bir şekilde birleştirilir ve kullanıcıya döndürülür. Bu mimari, SQL sorguları için büyük paralel işleme (MPP) yeteneği sağlayarak, bir dosya koleksiyonunu güçlü bir dağıtık veritabanına dönüştürür.
Büyük ölçekli veri analizi için karmaşık altyapı yönetimi gerektirmeyen, hızlı ve ölçeklenebilir bir SQL sorgu çözümü sunarak veri mühendisliği süreçlerini basitleştiriyor.