Google, Gemini mimarisi üzerine inşa edilmiş ilk tam çok modlu gömme modeli olan Gemini Embedding 2'yi duyurdu. Gemini API ve Vertex AI üzerinden genel önizlemeye sunulan bu model, daha önceki sadece metin tabanlı yaklaşımların ötesine geçerek metin, görsel, video, ses ve belgeleri tek bir birleşik gömme alanına dönüştürüyor. Bu sayede 100'den fazla dildeki anlamsal niyeti yakalayabiliyor ve Retrieval-Augmented Generation (RAG), anlamsal arama, duygu analizi ve veri kümeleme gibi çeşitli çok modlu görevleri basitleştiriyor.
Gemini Embedding 2, tek bir istekte birden fazla modülün (örneğin, görsel ve metin) birlikte işlenmesine olanak tanıyan yerel olarak araya girmiş girişi anlama yeteneğine sahip. Bu özellik, modelin farklı medya türleri arasındaki karmaşık ve incelikli ilişkileri kavramasını sağlayarak gerçek dünya verilerinin daha doğru anlaşılmasının önünü açıyor. Ayrıca, Matryoshka Representation Learning (MRL) tekniğini kullanarak çıktı boyutlarını dinamik olarak ölçeklendirebiliyor; bu da geliştiricilere performans ve depolama maliyetleri arasında denge kurma esnekliği sunuyor.
Model, metin, görsel ve video görevlerinde önde gelen diğer modelleri geride bırakarak çok modlu derinlik için yeni bir performans standardı belirliyor. Geliştiriciler, Gemini Embedding 2'yi Gemini API veya Vertex AI aracılığıyla kullanarak yüksek değerli çok modlu uygulamalar geliştirmeye hemen başlayabilirler. Bu teknoloji, Google ürünlerinde RAG'den büyük ölçekli veri yönetimine ve klasik arama/analize kadar birçok deneyimi güçlendiriyor.
Bu model, farklı veri türleri arasındaki karmaşık ilişkileri anlayarak yapay zeka uygulamalarının gerçek dünya verilerini işleme ve yorumlama kapasitesini önemli ölçüde artırıyor.