Ana Sayfa

Waypoint-1: Gerçek Zamanlı Etkileşimli Video Difüzyonu

1 dk okuma

Waypoint-1, Overworld tarafından geliştirilen, metin, fare ve klavye ile kontrol edilebilen, gerçek zamanlı etkileşimli bir video difüzyon modelidir. Kullanıcılara, verilen karelerden yola çıkarak içine girip etkileşimde bulunabilecekleri sanal dünyalar yaratma imkanı sunar. Modelin temelinde, 10.000 saatlik çeşitli video oyunu görüntüleri, kontrol girdileri ve metin başlıkları üzerinde eğitilmiş, kare-nedensel düzeltilmiş akış transformatörü bulunmaktadır. Waypoint-1, sıkıştırılmış kareler üzerinde eğitilmiş latent bir modeldir.

Mevcut dünya modelleri genellikle önceden eğitilmiş video modellerini basitleştirilmiş kontrol girdileriyle ince ayarlarken, Waypoint-1 en başından itibaren etkileşimli deneyimlere odaklanarak eğitilmiştir. Diğer modellerde kamera hareketleri sınırlı ve gecikmeli olabilirken, Waypoint-1 ile kullanıcılar fareyle kamerayı serbestçe hareket ettirebilir, klavyeden herhangi bir tuşu kullanabilir ve tüm bunları sıfır gecikmeyle gerçekleştirebilir. Her kare, kullanıcının kontrol girdileri bağlamında üretilir ve modelin tüketici donanımında bile sorunsuz bir deneyim sunacak kadar hızlı çalışması sağlanmıştır.

Model, geçmiş kareler verildiğinde gelecekteki karelerin gürültüsünü gidermeyi öğrenen "diffusion forcing" tekniğiyle önceden eğitilmiştir. Bu, her karenin ayrı ayrı gürültüsünü gidermesini sağlar. Ancak, çıkarım sırasında birikimli hatalara yol açtığı fark edildiğinden, çıkarım davranışına uygun gerçekçi çıktılar üretmek için "self forcing" adı verilen bir teknikle sonradan eğitim yapılmıştır. Waypoint-1'in yüksek performanslı çıkarım kütüphanesi olan WorldEngine, düşük gecikme süresi, yüksek verim ve geliştirici basitliği için optimize edilmiş saf Python tabanlı bir araç seti sunar. Bu kütüphane, bağlam kare görüntülerini, klavye/fare girdilerini ve metni tüketerek gerçek zamanlı akış için görüntü kareleri üretir.

İçgörü

Bu model, yapay zeka destekli sanal dünya oluşturma ve etkileşimde bulunma deneyimini gerçek zamanlı ve düşük gecikmeli hale getirerek oyun ve simülasyon alanında yeni kapılar açıyor.

Kaynak