Ana Sayfa

Apple, 2D Fotoğrafları Anında 3D Görünümlere Dönüştüren Açık Kaynak Modelini Yayınladı

1 dk okuma

Apple, tek bir 2D fotoğrafı saniyeler içinde fotogerçekçi 3D görünümlere dönüştüren SHARP adlı açık kaynaklı bir yapay zeka modelini tanıttı. Bu çığır açan proje, "Sharp Monocular View Synthesis in Less Than a Second" başlıklı araştırma makalesiyle birlikte sunuldu. SHARP, tek bir görüntüden sahnenin 3D Gaussian temsilinin parametrelerini tahmin ederek çalışıyor. Bu işlem, standart bir GPU üzerinde tek bir ileri beslemeli sinir ağı geçişiyle bir saniyeden daha kısa sürede tamamlanabiliyor.

SHARP tarafından üretilen 3D Gaussian temsili, daha sonra gerçek zamanlı olarak işlenerek yakın görünümler için yüksek çözünürlüklü, fotogerçekçi görüntüler elde edilmesini sağlıyor. Model, mutlak ölçekle metrik bir temsil sunarak metrik kamera hareketlerini destekliyor ve veri kümeleri arasında sağlam sıfır atış genellemesi sağlıyor. Deneysel sonuçlar, SHARP'ın önceki en iyi modellere kıyasla LPIPS'i %25-34 ve DISTS'i %21-43 oranında azalttığını, aynı zamanda sentez süresini üç kat daha düşürdüğünü gösteriyor. Bu performans iyileştirmeleri, SHARP'ı tek görüntüden görünüm sentezi alanında yeni bir dönüm noktası haline getiriyor.

Proje, Python 3.13 ortamında kolayca kurulabilir ve kullanılabilir. Kullanıcılar, giriş görüntülerini belirterek 3D Gaussian splat (3DGS) dosyaları oluşturabilir veya CUDA GPU'ya sahipse doğrudan videolar render edebilirler. Oluşturulan 3DGS .ply dosyaları, çeşitli halka açık 3DGS render motorlarıyla uyumludur. Apple'ın bu açık kaynak hamlesi, yapay zeka ve bilgisayar grafikleri topluluğu için önemli bir katkı niteliğinde.

İçgörü

Apple'ın SHARP modelini açık kaynak olarak sunması, tek bir 2D fotoğraftan saniyeler içinde yüksek kaliteli 3D görünümler oluşturma yeteneğini demokratikleştirerek bilgisayar grafikleri ve yapay zeka alanında yeni uygulamaların önünü açıyor.

Kaynak