Yapay zeka görsel oluşturma modelleri, devasa veri kümelerinden beslenmelerine rağmen, tekrarlayan istemlerle karşılaştığında sınırlı sayıda görsel stile yöneliyor. Patterns dergisinde yayımlanan bir çalışma, Stable Diffusion XL ve LLaVA modellerini içeren bir "görsel telefon oyunu" ile bu durumu test etti. Oyunda, Stable Diffusion XL bir istemden görsel oluşturdu, LLaVA bu görseli tanımladı ve bu tanım tekrar Stable Diffusion XL'e girdi olarak verilerek yeni bir görsel üretildi. Bu süreç 100 tur boyunca tekrarlandı. Tıpkı insanlarla oynanan telefon oyununda olduğu gibi, orijinal görsel hızla kayboldu. Ancak araştırmacıları şaşırtan asıl nokta, modellerin yalnızca bir avuç jenerik görünümlü stile yönelmesiydi. Bin farklı yineleme boyunca, görsel dizilerinin çoğunun sonunda sadece 12 baskın motife dönüştüğü gözlemlendi. Bu ortak stillere "görsel asansör müziği" benzetmesi yapıldı; yani otel odalarında görülebilecek türden, sıradan resimler. En yaygın sahneler arasında deniz fenerleri, resmi iç mekanlar, kentsel gece manzaraları ve rustik mimari bulunuyordu. Farklı modeller kullanıldığında bile benzer eğilimler ortaya çıktı. Bu durum, yapay zekanın yaratıcılık konusunda insanlardan farklı çalıştığını gösteriyor. İnsanlar, kendi önyargıları ve tercihleri nedeniyle mesajları farklı yorumlayarak çeşitlilik yaratırken, yapay zeka orijinal istem ne kadar sıra dışı olursa olsun, her zaman dar bir stil seçimine geri dönüyor. Bu da modellerin gerçek anlamda yaratıcı olmaktan ziyade mevcut kalıpları tekrarladığını düşündürüyor.
Yapay zeka görsel oluşturma modellerinin yaratıcılıkta sınırlı kalıp tekrarlarına eğilimli olduğunu gösteriyor.