Google, Gemma 3 tabanlı encoder-decoder ailesinin yeni nesil üyesi T5Gemma 2'yi duyurdu. Bu model, çok modlu (multimodal) ve uzun bağlamlı (long-context) yeteneklere sahip ilk encoder-decoder modellerini sunuyor. Önceki T5Gemma'dan farklı olarak, T5Gemma 2, encoder ve decoder arasında paylaşılan kelime gömme (tied word embeddings) ve birleştirilmiş decoder dikkat mekanizması (merged attention) kullanarak model parametrelerini önemli ölçüde azaltıyor. Bu sayede 270M-270M'den 4B-4B'ye kadar değişen boyutlarda kompakt önceden eğitilmiş modeller sunarak, hızlı denemeler ve cihaz üzerinde (on-device) uygulamalar için ideal bir çözüm haline geliyor.
T5Gemma 2, sadece bir yeniden eğitimden ibaret değil; Gemma 3 ailesinin güçlü yeni nesil özelliklerini miras alırken önemli mimari değişiklikler de içeriyor. Verimliliği artırmak için, encoder ve decoder gömmelerini birleştirerek parametre sayısını düşürüyor ve decoder'daki dikkat mekanizmalarını tek bir katmanda birleştirerek mimari karmaşıklığı azaltıp çıkarım (inference) performansını iyileştiriyor. Gemma 3'ten gelen yeniliklerle T5Gemma 2, metinle birlikte görüntüleri anlama ve işleme (multimodality) yeteneği kazanıyor; bu sayede görsel soru yanıtlama ve çok modlu akıl yürütme görevlerini sorunsuz bir şekilde yerine getirebiliyor. Ayrıca, 128K tokene kadar uzatılmış bağlam pencerelerini (extended long context) destekleyerek daha uzun metinleri işleyebiliyor ve 140'tan fazla dili destekleyen çok dilli (massively multilingual) yapısıyla geniş bir kullanım alanı sunuyor.
Bu yenilikler sayesinde T5Gemma 2, kompakt encoder-decoder modellerinin neler başarabileceği konusunda yeni bir standart belirliyor. Gemma 3 mimarisinden miras aldığı çok modlu ve uzun bağlamlı özelliklerle, temel yetenek alanlarında güçlü bir performans sergiliyor. Bu modeller, özellikle sınırlı kaynaklara sahip cihazlarda yapay zeka uygulamalarının geliştirilmesi ve dağıtılması için önemli bir potansiyel taşıyor.
T5Gemma 2, çok modlu ve uzun bağlamlı yetenekleri kompakt bir yapıda sunarak yapay zeka modellerinin verimliliğini ve erişilebilirliğini artırıyor, özellikle cihaz üzerinde uygulamalar için yeni kapılar açıyor.