Ana Sayfa

Capybara: Görsel Yaratımda Yeni Nesil Birleşik Model

1 dk okuma

Capybara, yüksek kaliteli görsel sentez ve manipülasyon görevleri için tasarlanmış güçlü bir görsel oluşturma ve düzenleme framework'üdür. Birleşik bir görsel yaratım modeli olarak, ileri düzey difüzyon modellerini ve transformer mimarilerini kullanarak içerik, hareket ve kamera hareketleri üzerinde hassas kontrolle çok yönlü görsel oluşturma ve düzenleme yetenekleri sunar. Bu framework, Metinden Videoya (T2V), Metinden Görsele (T2I), Talimat Tabanlı Videodan Videoya (TV2V) ve Talimat Tabanlı Görselden Görsele (TI2I) gibi çeşitli görevleri desteklemenin yanı sıra farklı düzenleme işlevlerini de bünyesinde barındırır.

Capybara, dağıtılmış çıkarım (distributed inference) desteği sayesinde çoklu GPU işlemcilerle yüksek performans sunarak verimli çalışmayı garanti eder. Yakın zamanda ComfyUI desteği ve tüm görev türleri için özel düğümler (custom nodes) eklenmiştir. Ayrıca, çıkarım betiği (inference script) ve ComfyUI özel düğümü için FP8 niceleme (quantization) desteği de getirilmiştir. Kurulumu Anaconda ile izole bir Python ortamında önerilir ve PyTorch ile gerekli bağımlılıkların yüklenmesiyle hızlıca kullanıma başlanabilir. Flash Attention desteği ile çıkarım süreçleri daha da hızlandırılabilir.

Model, Huggingface üzerinden indirilebilen çeşitli bileşenlere ihtiyaç duyar ve bu bileşenlerin belirli bir klasör yapısında düzenlenmesi gerekir. Capybara, tek örnek modu (Single Sample Mode) ile hızlı test imkanı sunarken, CSV dosyaları aracılığıyla çoklu örnekleri işlemek için toplu mod (Batch Mode) desteği de sağlar. Bu sayede kullanıcılar, metin istemleriyle tek bir görseli veya videoyu işleyebilir ya da talimat tabanlı görselden görsele düzenleme gibi karmaşık görevleri gerçekleştirebilirler. Proje, hızlı başlangıç için örnek betikler ve veri setleri sunmaktadır.

İçgörü

Capybara, metinden videoya ve görsele kadar geniş bir yelpazede yüksek kaliteli görsel üretim ve düzenleme yeteneklerini tek bir framework altında birleştirerek yaratıcı süreçleri demokratikleştiriyor ve hızlandırıyor.

Kaynak