Makale, Stardrift adlı bir yapay zeka destekli seyahat planlama uygulamasında, kullanıcıların serbest metin sorgularını (örneğin "sfo-jfk") yüksek kaliteli ve ilgili görsellere dönüştürme zorluğunu ele alıyor. Geleneksel yapay zeka görsel üretiminin maliyetli ve yetersiz sonuçlar vermesi, doğrudan Google aramalarının ise telif hakkı ve alaka düzeyi riskleri taşıması nedeniyle, yazar bu soruna yenilikçi bir çözüm getiriyor.
Önerilen çözüm, Büyük Dil Modellerini (LLM'ler) kullanıcı niyetini anlamak için kullanmak, geleneksel yazılım mühendisliğini veri eşleme için entegre etmek ve son olarak insan kürasyonunu en iyi fotoğrafları seçmek için devreye sokan hibrit bir yaklaşım. Bu çok katmanlı strateji, rastgele üretilmiş içerikler yerine "el yapımı" hissi veren, özenle seçilmiş görseller sunmayı amaçlıyor. Süreç, serbest metin sorgularını "yer" kavramına dönüştürme, bu yerleri görsellerle eşleştiren bir veritabanı oluşturma ve veritabanında olmayan yerler için bile doğru görseli bulabilen bir yazılım sistemi geliştirme adımlarından oluşuyor.
Projenin ilk ve en kritik adımı, bir "yer"in ne olduğunu tanımlamak. LLM'ler, "SFO-JFK" gibi bir sorgudan "New York, şehir" veya "Isle of Skye, bölge" gibi kesin konum ve tür bilgilerini çıkarabiliyor. Bu yaklaşım, kullanıcıların birden fazla yer belirttiği karmaşık senaryoları (örneğin, Fransa, Almanya ve Belçika'yı içeren bir balayı gezisi) ele almayı da mümkün kılıyor. Amaç, her sorgunun bir veya birden fazla 'yer' listesi döndürmesini sağlamak ve her 'yer'in bir 'isim' ve 'tür' kombinasyonu (örn. şehir, bölge, ülke) içermesi.
Yapay zeka uygulamalarında kullanıcı deneyimini zenginleştirmek için sadece teknolojiye değil, aynı zamanda insan dokunuşuna ve özenli tasarıma ihtiyaç duyulduğunu gösteriyor.