Ana Sayfa

3 Milyar Vektörü Sorgulama Zorluğu ve İlk Denemeler

1 dk okuma

Makale, Jeff Dean ile 3 milyar vektörü sorgulama üzerine yapılan bir tartışmadan ilham alarak, yazarın bu devasa ölçekteki veri işleme zorluğuna kendi çözümünü bulma arayışını detaylandırıyor. Vektörler, n boyutlu kayan noktalı sayı listeleri olarak tanımlanır ve arama motorları, öneri sistemleri ve Cursor gibi üretken geri çağırma uygulamalarında semantik benzerlikleri tespit etmek için yaygın olarak kullanılır. Yazar, bu büyük veri setini verimli bir şekilde sorgulamak amacıyla ilk olarak oldukça basit ve doğrudan bir yaklaşım denedi.

Bu ilk denemede, 3 milyar aranabilir doküman vektörü ve yaklaşık 1000 sorgu vektörü olduğu varsayıldı. Her iki vektör setinin de .npy formatında diskte depolandığı ve temel hedefin, her bir sorgu vektörünü, doküman vektörleri havuzundaki tüm vektörlerle karşılaştırarak aralarındaki benzerliği (nokta çarpımı) hesaplamak olduğu belirtildi. Vektörlerin boyutu, birçok benzerlik tabanlı gömme sorgusu için yaygın olan 768 olarak ayarlandı. Python ve numpy kütüphaneleri kullanılarak geliştirilen bu başlangıçtaki uygulama, sadece 3000 vektörle (gerçek hedefin milyonda biri) bile M2 Macbook üzerinde 2 saniye gibi bir sürede tamamlandı. Bu sonuç, basit döngülerle gerçekleştirilen bu tür bir doğrudan karşılaştırmanın, 3 milyar vektör gibi gerçek dünya ölçeklerinde tamamen yetersiz kalacağını ve çok daha sofistike, dağıtık bir çözüme ihtiyaç duyulduğunu açıkça ortaya koydu.

İçgörü

Büyük ölçekli vektör sorgulama, modern yapay zeka ve veri bilimi uygulamaları için kritik bir performans sorunudur ve etkili çözümler gerektirir.

Kaynak