Temel modellerdeki araştırma ilerlemesini yönlendiren en önemli unsurlardan biri ampirik değerlendirmelerdir. Gelişmiş görsel-dil modelleri (VLM'ler) üzerine yoğun çalışmalar olmasına rağmen, bu modellerin değerlendirme yaklaşımları henüz başlangıç aşamasındadır. Bu alandaki olgunlaşmayı hızlandırmak amacıyla, değerlendirmelerin karşılaması gereken üç temel ilke önerilmektedir: modaliteye ve uygulamaya sadakat (faithfulness), farklı kalitedeki modelleri ayırt edebilme (discriminability) ve hesaplama açısından verimlilik (efficiency). Bu ilkeler ışığında, model yeteneklerini yanlış temsil eden kritik başarısızlıklar tespit edilmiştir. Örneğin, çoktan seçmeli formatlar tahmin etmeyi ödüllendirir, gerçek kullanım senaryolarını kötü yansıtır ve modeller geliştikçe hızla doygunluğa ulaşır. Ayrıca, görseller olmadan cevaplanabilen "körlemesine çözülebilir" sorular, bazı değerlendirmelerin %70'ini oluştururken, yanlış etiketlenmiş veya belirsiz örnekler belirli veri kümelerinde %42'ye kadar çıkabilmektedir.
Verimlilik açısından bakıldığında, öncü modellerin değerlendirilmesinin getirdiği hesaplama yükü oldukça yüksek hale gelmiştir; bazı tahminlere göre geliştirme hesaplama kaynaklarının neredeyse %20'si yalnızca değerlendirmeye ayrılmaktadır. Mevcut kıyaslama testlerini tamamen gözden çıkarmak yerine, DatBench projesi bu testleri dönüştürerek ve filtreleyerek doğruluk ve ayırt ediciliklerini en üst düzeye çıkarmayı hedeflemektedir. Çalışma, çoktan seçmeli soruları üretken görevlere dönüştürmenin model yeteneklerinde %35'e varan keskin düşüşler ortaya çıkardığını göstermektedir. Ek olarak, körlemesine çözülebilir ve yanlış etiketlenmiş örneklerin filtrelenmesi, ayırt edici gücü artırırken aynı zamanda hesaplama maliyetini de azaltmaktadır.
Araştırmacılar, dokuz VLM yeteneğini kapsayan 33 veri setinden oluşan temizlenmiş bir değerlendirme paketi olan DatBench-Full'u ve orijinal veri setlerinin ayırt edici gücünü yakından eşleştirirken ortalama 13 kat (50 kata kadar) hızlanma sağlayan ayırt edici bir alt küme olan DatBench'i yayımladı. Bu çalışma, VLM'ler ölçeklenmeye devam ettikçe hem titiz hem de sürdürülebilir değerlendirme uygulamalarına yönelik bir yol haritası sunmaktadır.
Bu çalışma, görsel-dil modellerinin (VLM) değerlendirme yöntemlerindeki mevcut eksiklikleri gidererek, daha doğru, ayırt edici ve verimli değerlendirme standartları oluşturulmasına öncülük ediyor.