Apple tarafından geliştirilen SHARP, tek bir fotoğraftan fotogerçekçi 3D görünüm sentezi yapabilen yenilikçi bir yaklaşımdır. Bu teknoloji, verilen tek bir fotoğraftan sahnenin 3D Gaussian temsilinin parametrelerini bir sinir ağı üzerinden tek bir ileri beslemeli geçişle saniyeden daha kısa sürede, standart bir GPU üzerinde çıkarır. SHARP'ın ürettiği bu 3D Gaussian temsil, daha sonra gerçek zamanlı olarak işlenerek yakın görünümler için yüksek çözünürlüklü, keskin detaylara sahip fotogerçekçi görüntüler sunar. Bu sayede kullanıcılar, tek bir 2D görüntüden dinamik ve etkileşimli 3D deneyimler elde edebilirler.
SHARP'ın sunduğu temsil, mutlak ölçekle metrik olup, metrik kamera hareketlerini destekler. Deneysel sonuçlar, SHARP'ın farklı veri kümeleri arasında sağlam bir sıfır-atış genellemesi (zero-shot generalization) sergilediğini göstermektedir. Mevcut en iyi modellere kıyasla LPIPS'i %25-34 ve DISTS'i %21-43 oranında azaltarak birden fazla veri kümesinde yeni bir standart belirlemiştir. Ayrıca, sentez süresini üç kat daha azaltarak performansta devrim niteliğinde bir iyileşme sağlamıştır. Bu gelişmeler, SHARP'ı tek görüntüden 3D modelleme ve görünüm sentezi alanında çığır açan bir çözüm haline getirmektedir.
Tek bir 2D fotoğraftan saniyeler içinde yüksek kaliteli, etkileşimli 3D sahne oluşturma yeteneği, sanal gerçeklikten e-ticarete kadar birçok alanda yeni kapılar açıyor.