ShapeR, gündelik çekimlerden (görüntü dizileri) sağlam ve koşullu 3D nesne üretimi için geliştirilmiş yenilikçi bir yapay zeka sistemidir. Bu sistem, bir dizi görüntüden nesne merkezli 3D rekonstrüksiyon yaparak, tam metrik sahne oluşturma yeteneğine sahiptir. ShapeR, her nesne için SLAM noktaları, görüntüler ve açıklamalar gibi çok modlu verileri ön işler. Ardından, bu girdileri koşul olarak kullanan bir rectified flow transformer, nesnelerin 3D modellerini oluşturur.
Sistem, ticari olarak temin edilebilen SLAM ve 3D örnek algılama araçlarını kullanarak 3D noktaları ve nesne örneklerini hesaplar. Her nesne için seyrek noktalar, ilgili görüntüler, 2D projeksiyonlar ve VLM açıklamaları çıkarılır ve bunlar, bir latent VecSet'i gürültüden arındırarak 3D şekli üreten rectified flow modelini koşullandırmak için kullanılır. Çok modlu koşullandırma, kapsamlı anlık kompozisyonel artırmalar ve müfredat eğitimi, ShapeR'ın gerçek dünya senaryolarında sağlamlığını garanti eder.
ShapeR, tek bir görüntüyü kullanan ve metrik doğruluktan yoksun olabilen SAM 3D Objects gibi mevcut yöntemlerin aksine, görüntü dizilerini ve SLAM noktaları gibi çok modlu verileri entegre ederek metrik olarak doğru ve tutarlı rekonstrüksiyonlar üretir. Kullanıcı etkileşimi gerektirmeden, gündelik çekilen gerçek dünya sahnelerini sağlam bir şekilde işleyebilir ve yüksek kaliteli metrik şekiller ile düzenlemeler oluşturabilir. Özellikle, ShapeR'ın tamamen sentetik verilerle eğitilmiş olması, büyük ölçekli etiketli gerçek görüntü-3D verileri kullanan SAM 3D'ye kıyasla dikkat çekici bir ilerlemedir.
Gündelik çekimlerden, kullanıcı etkileşimi olmadan, metrik olarak doğru ve tutarlı 3D nesne rekonstrüksiyonu yapabilen ShapeR, yapay zeka destekli 3D modelleme alanında önemli bir ilerlemeyi temsil ediyor.