LoGeR: Uzun Videolardan 3D Yeniden Yapılandırmada Devrim

LoGeR, DeepMind ve UC Berkeley tarafından geliştirilen yeni bir yöntem olup, son derece uzun videolardan 3D yeniden yapılandırma sürecini kökten değiştiriyor. Geleneksel yöntemlerin karşılaştığı karesel karmaşıklık ve "bağlam duvarı" gibi temel engelleri aşarak, beslemeli yoğun 3D yeniden yapılandırmayı dakikalar süren videolara ölçeklendirmeyi başarıyor. Bu yenilikçi yaklaşım, video akışlarını parçalara ayırarak ve bunları hibrit bir bellek modülüyle birleştirerek çalışıyor.

LoGeR'ın mimarisi, yerel hassasiyeti ve küresel tutarlılığı bir araya getiriyor. Yakın komşuluklardaki kareler arasında yüksek hassasiyetli hizalama için Kayar Pencere Dikkatini (Sliding Window Attention - SWA) kullanırken, uzun menzilli küresel tutarlılığı sağlamak ve ölçek kaymasını önlemek için Test-Zamanı Eğitimi'ni (Test-Time Training - TTT) entegre ediyor. Bu çift yollu hibrit bellek modülü sayesinde, LoGeR binlerce karelik devasa dizilerde bile güçlü geometrik tutarlılığı koruyabiliyor ve kilometrelerce uzunluktaki yörüngelerde ölçek kaymasını önemli ölçüde azaltıyor. Üstelik tüm bunları, herhangi bir sonradan optimizasyona gerek kalmadan, 19.000 kareye kadar olan dizilerde başarıyla gerçekleştiriyor.

Bu yöntem, "veri duvarı" sorununu da çözerek, kısa bağlamlı verilerle eğitilmiş modellerin geniş ölçekli ortamlarda genelleme yapamama sorununu aşıyor. LoGeR'ın parçalı işleme ve hibrit bellek mimarisi, hem yerel geometrik detayları yüksek doğrulukla korurken hem de genel yapısal tutarlılığı sağlıyor. Bu sayede, daha önce mümkün olmayan uzunluktaki video akışlarından doğru ve tutarlı 3D modeller oluşturulabiliyor, bu da robotik, otonom sürüş ve sanal gerçeklik gibi alanlarda yeni kapılar açıyor.

LoGeR: Uzun Videolardan 3D Yeniden Yapılandırmada Devrim

10 Haneli Toplama İçin Minimal Bir Transformer Oluşturmak

NNUE İçin Daha İyi Aktivasyon Fonksiyonları: Swish Deneyleri

QRTape: Bilgisayar Görüsüyle Kağıt Banttan Ses Oynatma Sistemi

LoGeR: Uzun Videolardan 3D Yeniden Yapılandırmada Devrim

10 Haneli Toplama İçin Minimal Bir Transformer Oluşturmak

NNUE İçin Daha İyi Aktivasyon Fonksiyonları: Swish Deneyleri

QRTape: Bilgisayar Görüsüyle Kağıt Banttan Ses Oynatma Sistemi

Benzer Haberler

10 Haneli Toplama İçin Minimal Bir Transformer Oluşturmak

NNUE İçin Daha İyi Aktivasyon Fonksiyonları: Swish Deneyleri

QRTape: Bilgisayar Görüsüyle Kağıt Banttan Ses Oynatma Sistemi

Benzer Haberler

10 Haneli Toplama İçin Minimal Bir Transformer Oluşturmak

NNUE İçin Daha İyi Aktivasyon Fonksiyonları: Swish Deneyleri

QRTape: Bilgisayar Görüsüyle Kağıt Banttan Ses Oynatma Sistemi