Yapay zeka sohbet robotları, "muhtemelen" veya "olası" gibi belirsizlik ifade eden kelimeleri kullanırken, insanların anladığından farklı bir olasılık değerlendirmesi yapıyor. Yeni bir araştırmaya göre, büyük dil modelleri (LLM) sohbet konusunda başarılı olsa da, belirsizliği iletme konusunda insanlarla uyum sağlayamıyor. Çalışma, "belki", "muhtemelen" ve "neredeyse kesin" gibi tahmini olasılık kelimelerine odaklandı. AI modellerinin ve insanların bu kelimeleri sayısal yüzdelerle nasıl eşleştirdiğini karşılaştırarak, insanlarla LLM'ler arasında önemli farklılıklar bulundu. Modeller "imkansız" gibi uç noktalarda insanlarla hemfikir olsa da, "belki" gibi belirsiz kelimelerde keskin bir şekilde ayrılıyorlar. Örneğin, bir model "olası" kelimesini %80 olasılık için kullanırken, bir insan okuyucu bunun %65'e daha yakın olduğunu varsayabilir.
Bu fark, insanların "olası" ve "muhtemelen" gibi kelimeleri bağlamsal ipuçlarına ve kişisel deneyimlerine göre yorumlamasından kaynaklanıyor olabilir. Buna karşılık, büyük dil modelleri, eğitim verilerindeki çelişkili kullanımların ortalamasını alarak insan yorumlarından sapmalara yol açabilir. Çalışma ayrıca, büyük dil modellerinin cinsiyetçi dile ve istem için kullanılan belirli dile duyarlı olduğunu da ortaya koydu. Bir istem "he"den "she"ye değiştiğinde, AI'nın olasılık tahminleri genellikle daha katı hale geldi ve eğitim verilerine gömülü önyargıları yansıttı. Bir istem İngilizce'den Çince'ye değiştiğinde, AI'nın olasılık tahminleri genellikle değişti, bu da İngilizce ve Çince arasındaki belirsizliği ifade etme ve anlama farklılıklarından kaynaklanıyor olabilir.
Bu uyumsuzluk, dilsel bir tuhaflıktan çok, AI güvenliği ve insan-AI etkileşimi için temel bir zorluktur. Büyük dil modelleri, sağlık hizmetleri, hükümet politikası ve bilimsel raporlama gibi yüksek riskli alanlarda giderek daha fazla kullanıldıkça, riskleri iletme şekilleri kamu güveni meselesi haline geliyor. Örneğin, bir doktora yardımcı olan bir AI asistanı bir yan etkiyi "olası değil" olarak tanımlarsa, ancak modelin "olası değil" için dahili hesaplaması doktorun yorumundan çok daha yüksekse, ortaya çıkan karar hatalı olabilir. Bu çalışma, AI'nın "akıllı" olup olmadığını ölçmenin ötesine geçerek, insan ve yapay zeka arasındaki etkileşimi biyolojik benzeri bir sistem olarak ele alıyor ve uyumlu olup olmadığını sorguluyor.
Yapay zekanın belirsizlik ifade eden kelimeleri insanlardan farklı yorumlaması, özellikle kritik alanlarda güvenliği ve doğru karar almayı riske atıyor.