Ana Sayfa

3D Nesneleri Parçalara Ayırma ve Adlandırma: ALIGN-Parts ile Yeni Bir Yaklaşım

1 dk okuma

Birçok bilgisayar görüşü ve grafik uygulaması, nesnelerin sadece bütünsel etiketlerini değil, aynı zamanda 3D parçalarını da gerektirir. Örneğin, robotların tutacakları kavraması veya tasarımcıların düzenlenebilir, anlamsal olarak anlamlı bileşenlere ihtiyaç duyması gibi durumlar, hem parçaları ayırmayı (segmentasyon) hem de onları adlandırmayı gerektiren iki temel sorunu ortaya çıkarır. Mevcut parça etiketli veri kümeleri genellikle kaynaklar arasında tutarsız etiket tanımlarına sahip olup, sağlam eğitim ve değerlendirmeyi sınırlar. Güncel yaklaşımlar ise genellikle sorunun sadece bir yönünü ele alır: yalnızca segmentasyon yapan modeller isimsiz bölgeler üretirken, dil tabanlı sistemler genellikle her seferinde tek bir parçayı alır ve eksiksiz, adlandırılmış bir ayrıştırma sağlayamaz.

ALIGN-Parts, adlandırılmış 3D parça segmentasyonunu bir kümeden kümeye hizalama problemi olarak yeniden tanımlıyor. Her noktayı bağımsız olarak etiketlemek yerine, model küçük bir "partlet" kümesi tahmin eder. Her bir partlet, noktalar üzerinde yumuşak bir segmentasyon maskesi ve parça açıklamalarıyla eşleştirilebilecek bir metin gömülü vektörü (text embedding) ile bir parçayı temsil eder. Tahmin edilen partletler daha sonra iki taraflı eşleştirme (bipartite matching) yoluyla aday açıklamalara hizalanır. Bu yöntem, permütasyon tutarlılığını sağlarken, parça sayısının şekle göre uyarlanabilmesi için boş bir seçenek de sunar.

Partlet'leri hem geometrik olarak ayrılabilir hem de anlamsal olarak anlamlı hale getirmek için, 3D parça alanı omurgasından gelen geometri, 3D'ye yükseltilmiş çoklu görünüm görünüm özellikleri ve büyük dil modelleri (LLM) tarafından üretilen, işlevselliğe duyarlı açıklamalardan (örneğin, "bir sandalyenin kişinin oturduğu yatay yüzeyi") elde edilen anlamsal bilgi birleştirilir. ALIGN-Parts, 3DCoMPaT++, PartNet ve Find3D gibi veri kümelerinde adlandırılmış 3D parça segmentasyonunda değerlendirilmiş ve güçlü temel modelleri geride bırakmıştır. Ayrıca, yavaş, sonradan yapılan kümeleme işlemlerinden kaçınarak yaklaşık 100 kat daha hızlı çıkarım (inference) sağlar. Bu yenilikçi yaklaşım, 3D modelleme ve robotik gibi alanlarda önemli ilerlemeler vadediyor.

İçgörü

Bu çalışma, 3D nesnelerin parçalarını hem geometrik hem de anlamsal olarak doğru bir şekilde ayırma ve adlandırma sorununa bütünsel ve verimli bir çözüm sunarak bilgisayar grafikleri ve robotik alanlarında yeni kapılar açıyor.

Kaynak