Microsoft tarafından geliştirilen TRELLIS.2, görüntüden 3D model oluşturma alanında çığır açan, 4 milyar parametreye sahip son teknoloji bir üretken yapay zeka modelidir. Bu model, karmaşık topolojilere, keskin detaylara ve tam PBR (Fiziksel Tabanlı İşleme) materyallerine sahip, yüksek kaliteli 3D varlıkları yeniden yapılandırmak ve üretmek için "alan-serbest" (field-free) O-Voxel adı verilen yenilikçi bir seyrek voksel yapısından faydalanmaktadır. O-Voxel temsili, geleneksel izo-yüzey alanlarının sınırlarını aşarak açık yüzeyler (giysiler, yapraklar), çoklu olmayan geometriler ve içe kapalı yapılar gibi karmaşık yapıları kayıpsız bir şekilde işleyebilmektedir.
TRELLIS.2, 16x uzamsal aşağı örnekleme ile varlıkları kompakt bir latent uzaya kodlamak için Seyrek 3D VAE kullanır ve standart DiT'ler (Diffusion Transformers) aracılığıyla yüksek çözünürlüklü, tamamen dokulu varlıkları olağanüstü doğruluk ve verimlilikle üretir. NVIDIA H100 GPU üzerinde 512³ çözünürlükte yaklaşık 3 saniye, 1024³ çözünürlükte yaklaşık 17 saniye ve 1536³ çözünürlükte yaklaşık 60 saniye gibi etkileyici üretim süreleri sunar. Model, temel renklerin ötesinde, Base Color, Roughness, Metallic ve Opacity gibi çeşitli yüzey niteliklerini modelleyerek fotogerçekçi işleme ve şeffaflık desteği sağlar.
Veri işleme süreçleri de oldukça basitleştirilmiştir; dokulu ağdan O-Voxel'e dönüşüm tek bir CPU'da 10 saniyeden kısa sürerken, O-Voxel'den dokulu ağa dönüşüm CUDA ile 100 milisaniyeden daha kısa sürede gerçekleşir. Bu, modelin hem üretim hem de veri hazırlığı aşamalarında yüksek verimlilik sunduğunu göstermektedir. Projenin yol haritasında yayınlanmış makale, görüntüden 3D'ye çıkarım kodu, önceden eğitilmiş modeller ve Hugging Face Spaces demosu gibi önemli adımlar bulunmaktadır.
TRELLIS.2, mevcut 3D üretim modellerinin karşılaştığı karmaşık geometri ve materyal sınırlamalarını aşarak, yüksek çözünürlüklü ve fotogerçekçi 3D varlıkların daha hızlı ve verimli bir şekilde oluşturulmasının önünü açıyor.