Ana Sayfa

Voyage-Multimodal-3.5: Video Destekli Yeni Nesil Çok Modlu Gömme Modeli

1 dk okuma

VoyageAI, metin, görsel ve videolar üzerinde geri getirme (retrieval) için tasarlanmış yeni nesil çok modlu gömme modeli voyage-multimodal-3.5'i tanıttı. voyage-multimodal-3'ün devamı niteliğindeki bu model, kesişen metin ve görselleri (ekran görüntüleri, PDF'ler, tablolar, şekiller, slaytlar) gömmenin yanı sıra, artık video kareleri için de açık destek sunuyor. Ayrıca, esnek boyutlandırma için Matryoshka gömmelerini destekleyen ilk üretim sınıfı video gömme modelidir. voyage-multimodal-3.5, 15 görsel belge geri getirme veri setinde Cohere Embed v4'ten %4,56 ve 3 video geri getirme veri setinde Google Multimodal Embedding 001'den %4,65 daha yüksek doğruluk elde ederken, salt metin aramada en gelişmiş metin modelleriyle eşleşen performans sergiliyor.

Model mimarisi, voyage-multimodal-3'e benzer şekilde, hem görsel hem de metin modalitelerinin tek bir transformer kodlayıcıdan geçirilmesini benimsiyor. Bu birleşik mimari, görsel ve metinsel bilgiler arasındaki bağlamsal ilişkileri koruyarak, belge ekran görüntüleri, karmaşık PDF'ler ve açıklamalı görseller gibi iç içe geçmiş içeriğin etkili bir şekilde vektörleştirilmesini sağlıyor. CLIP tabanlı modellerin aksine, voyage-multimodal-3.5, tüm girdileri aynı omurga üzerinden işleyerek metin, ekran görüntüleri, PDF'ler, şekiller ve artık videoları, benzerliğin modaliteden ziyade anlamsal anlamı yansıttığı ortak bir vektör uzayına gömüyor. Bu yaklaşım, CLIP benzeri modellerde görülen ve metin sorgularının alakasız metinleri, ilgili görseller yerine getirmesine neden olan "modalite boşluğu" sorununu ortadan kaldırıyor. Video gömmeleri için videolar, sıralı kare dizileri olarak temsil edilir ve modele görsel olarak girdi olarak verilir. Uzun videoların sahnelere ayrılması gibi en iyi uygulamalar öneriliyor.

İçgörü

Bu model, farklı veri türleri arasında anlamsal olarak tutarlı arama ve erişim yetenekleri sunarak yapay zeka uygulamalarında çığır açıyor.

Kaynak