Büyük Dil Modelleri (LLM) ile güçlendirilmiş Çoklu Ajan Sistemleri (MAS), gelişmiş işbirlikçi muhakeme yetenekleri sunsa da, ayrık metin tabanlı iletişimin verimsizliği nedeniyle önemli çalışma zamanı maliyetleri ve bilgi nicemleme kayıplarıyla karşı karşıyadır. Mevcut latent durum transferi yaklaşımları, ya homojen gönderici-alıcı mimarileri varsayar ya da modele özgü çeviricilere dayanır, bu da farklı model aileleri arasında ölçeklenebilirliği ve modülerliği sınırlar. Bu durum, özellikle çeşitli modellerin bir arada çalıştığı heterojen sistemlerde ciddi bir darboğaz oluşturmaktadır.
Bu çalışmada, "Vision Wormhole" adı verilen yeni bir çerçeve önerilmektedir. Bu çerçeve, Vision-Language Modellerinin (VLM) görsel arayüzünü yeniden kullanarak modelden bağımsız, metinsiz iletişimi mümkün kılar. Evrensel bir Görsel Kodek (Universal Visual Codec) aracılığıyla, heterojen muhakeme izleri paylaşılan sürekli bir latent alana eşlenir ve doğrudan alıcının görsel yoluna enjekte edilir. Bu sayede, görsel kodlayıcı, ajanlar arası telepatik bir iletişim için evrensel bir port görevi görür. Çerçeve, ikili hizalama karmaşıklığını O(N^2)'den O(N)'ye düşürmek için bir hub-and-spoke topolojisi benimser ve yüksek hızlı görsel kanalı metin yolunun sağlam muhakeme kalıplarıyla hizalamak için etiketsiz, öğretmen-öğrenci damıtma hedefini kullanır.
Qwen-VL ve Gemma gibi heterojen model aileleri üzerinde yapılan kapsamlı deneyler, Vision Wormhole'un standart metin tabanlı MAS'a kıyasla uçtan uca gerçek zamanı azalttığını ve muhakeme doğruluğunu koruduğunu göstermektedir. Bu yaklaşım, yapay zeka ajanları arasındaki iletişimi daha hızlı ve verimli hale getirerek, karmaşık işbirlikçi görevlerdeki performanslarını önemli ölçüde artırma potansiyeli taşımaktadır. Kodlar halka açık olarak erişilebilir durumdadır.
Yapay zeka ajanları arasındaki iletişimi metin tabanlı kısıtlamalardan kurtararak daha hızlı ve verimli bir işbirliği ortamı sunuyor.