Qwen ailesinin en yeni üyeleri olan Qwen3-VL-Embedding ve Qwen3-VL-Reranker model serileri, açık kaynaklı ve güçlü Qwen3-VL temel modeli üzerine inşa edilmiştir. Bu modeller, özellikle çok modlu bilgi erişimi ve çapraz modlu anlama görevleri için tasarlanmıştır. Metin, görseller, ekran görüntüleri ve videolar dahil olmak üzere çeşitli girdileri ve bu modalitelerin karışımını içeren girdileri sorunsuz bir şekilde işleyebilirler. Bu sayede, görsel ve video anlama görevlerinde sınıfının en iyisi performansı sunarak, metin odaklı Qwen3-Embedding ve Qwen3-Reranker serisinin başarısını çok modlu alana taşımaktadırlar.
Modeller birlikte çalışır: Embedding modeli, semantik açıdan zengin vektörler oluşturarak ilk geri çağırma aşamasını yönetirken, Reranking modeli hassas alaka düzeyi puanlamasıyla yeniden sıralama aşamasını ele alır ve nihai erişim doğruluğunu önemli ölçüde artırır. Qwen3-VL-Embedding, tek veya karma modlu girdileri yüksek boyutlu bir semantik vektöre dönüştüren çift kuleli bir mimariye sahiptir. Bu, büyük ölçekli erişim için verimli ve bağımsız kodlama sağlar. Reranking modeli ise, sorgu ve belge çiftlerini (her ikisi de tek veya karma modlu olabilir) kabul ederek üstün erişim doğruluğu için hassas alaka düzeyi puanları üretir.
Qwen3-VL-Embedding ve Reranker serisi, 30'dan fazla dil desteği, göreve özel optimizasyon için özelleştirilebilir talimatlar, Matryoshka Representation Learning (MRL) ile esnek vektör boyutları ve verimli dağıtım için nicelenmiş (quantized) embedding'lerle güçlü performans gibi pratik özellikler sunar. Bu modeller, görüntü-metin erişimi, video-metin eşleştirme, görsel soru yanıtlama (VQA) ve çok modlu içerik kümeleme gibi çeşitli görevlerde en son teknoloji performansını yakalamaktadır.
Bu modeller, farklı veri türlerini bir araya getirerek bilgiye erişim ve anlama yeteneklerini önemli ölçüde geliştirerek, yapay zeka uygulamalarında yeni ufuklar açmaktadır.