LMArena, yapay zeka modellerini değerlendirmek için yaygın olarak kullanılan popüler bir çevrimiçi liderlik tablosu olmasına rağmen, makale bu sistemin ciddi kusurlara sahip olduğunu öne sürüyor. Araştırmacılar ve şirketler tarafından bir referans noktası olarak kabul edilen LMArena, aslında yüzeyselliği doğruluğun önüne koyan bozuk bir mekanizma olarak tanımlanıyor. Sistem, kullanıcıların bir isteme verilen iki yanıtı değerlendirip en iyisini seçmesi prensibine dayanıyor. Ancak gerçekte, internet kullanıcıları yanıtları dikkatlice okumak veya doğruluklarını kontrol etmek yerine, genellikle sadece iki saniye içinde yüzeysel bir tarama yaparak favori gördükleri cevabı işaretliyorlar.
Bu durum, yapay zeka modelleri için çarpık bir ödül yapısı yaratıyor. Liderlik tablosunda yükselmenin en kolay yolu daha akıllı olmak değil, insan dikkat süresini manipüle etmek haline geliyor. Veriler, modellerin sıralamalarını artırmak için daha uzun yanıtlar vermeye, agresif biçimlendirme (kalın başlıklar, madde işaretleri) kullanmaya ve hatta dikkat çekici emojiler eklemeye yöneldiğini gösteriyor. Bir model tamamen yanlış bilgi verse bile, etkileyici görünüyorsa veya yetkinlik estetiğine sahipse, LMArena kullanıcıları doğru cevaba kıyasla onu tercih edebiliyor. Bu durum, Meta'nın Maverick modelinin "saat kaç?" sorusuna bolca emoji ve biçimlendirme ile dolu, ancak soruyu yanıtlamayan bir cevapla liderlik tablosunda yükselmesi gibi absürt sonuçlara yol açtı.
SurgeHQ tarafından yapılan 500 oyluk bir analiz, oyların %52'siyle aynı fikirde olunmadığını ve %39'uyla ise kesinlikle aynı fikirde olunmadığını ortaya koydu. Örnekler, LMArena kullanıcılarının nesnel doğruluğu cezalandırdığını gösteriyor; örneğin, "Oz Büyücüsü" ve "Kek Kalıbı" senaryolarında, yanlış ama kendine güvenli görünen yanıtlar doğru olanları geride bırakabiliyor. Makale, LMArena'nın neyin doğru olduğunu değil, neyin doğru hissettirdiğini optimize ettiğini ve bu durumun yapay zeka endüstrisini şekillendiren modellerin değerlendirilmesinde ciddi bir sorun teşkil ettiğini vurguluyor.
Yapay zeka modellerinin değerlendirme sistemlerinin yüzeysel algoritmalar yerine gerçek doğruluk ve yetkinliğe odaklanması, teknolojinin güvenilirliği ve geleceği için kritik öneme sahiptir.