Ana Sayfa

Qwen-Image-Layered: Katmanlı Görüntü Düzenlemede Yeni Bir Çığır

1 dk okuma

Mevcut görsel üretken modeller, raster görüntülerin iç içe geçmiş yapısı nedeniyle görüntü düzenleme sırasında tutarlılık sorunları yaşamaktadır. Tüm görsel içerik tek bir tuvalde birleştiği için, bir bölümdeki değişiklikler genellikle diğer kısımları da istenmeyen şekillerde etkiler. Profesyonel tasarım araçları ise bu sorunu katmanlı temsiller kullanarak aşar; bu sayede her katman diğer içerikten bağımsız olarak düzenlenebilir ve tutarlılık korunur. Bu yaklaşımdan ilham alan Qwen-Image-Layered, tek bir RGB görüntüyü anlamsal olarak ayrıştırılmış birden fazla RGBA katmanına bölen uçtan uca bir difüzyon modeli sunmaktadır. Bu ayrıştırma, her bir RGBA katmanının diğer içeriği etkilemeden bağımsız olarak düzenlenebilmesini sağlayan doğal bir düzenlenebilirlik imkanı sunar.

Değişken uzunlukta katman ayrıştırmayı desteklemek için Qwen-Image-Layered, üç temel bileşen içerir: RGB ve RGBA görüntülerinin gizli temsillerini birleştiren bir RGBA-VAE; değişken sayıda görüntü katmanını ayrıştırabilen bir VLD-MMDiT (Variable Layers Decomposition MMDiT) mimarisi; ve önceden eğitilmiş bir görüntü üretim modelini çok katmanlı bir görüntü ayrıştırıcıya dönüştürmek için tasarlanmış çok aşamalı bir eğitim stratejisi. Yüksek kaliteli çok katmanlı eğitim görüntülerinin kıtlığını gidermek amacıyla, ekip Photoshop belgelerinden (PSD) çok katmanlı görüntüleri çıkarıp açıklama eklemek için bir boru hattı geliştirmiştir. Yapılan deneyler, bu yöntemin ayrıştırma kalitesi açısından mevcut yaklaşımları önemli ölçüde geride bıraktığını ve tutarlı görüntü düzenleme için yeni bir paradigma oluşturduğunu göstermektedir.

İçgörü

Bu model, karmaşık görüntü düzenleme süreçlerini basitleştirerek ve tutarlılığı artırarak görsel içerik oluşturma ve manipülasyonunda devrim niteliğinde bir potansiyel sunuyor.

Kaynak