Yapay zeka modellerini niteliksel ödüllerle eğitmek, özellikle mizah gibi öznel alanlarda büyük bir zorluk teşkil ediyor. Bir şeyin komik olup olmadığına dair iki kişinin farklı görüşlere sahip olması durumunda, doğru ya da yanlış bir cevap bulunamaz ve bu da geleneksel ödül fonksiyonlarının uygulanmasını imkansız kılar. Makale, bu tür bir zorlukla karşılaşıldığında, yazarın başlangıçta tatmin edici bir cevabı olmadığını belirtiyor.
Bu soruna çözüm olarak, Moonshot'un 1 trilyon parametreli Kimi K2 modelini post-eğitme yeteneği kullanılarak rubrik tabanlı Pekiştirmeli Öğrenme (RL) yaklaşımı öneriliyor. Moonshot'un kendi modellerini yaratıcı yazım puanlarını artırmak için kullandığı yöntemden esinlenilerek, "komik" kavramı doğrudan derecelendirmek yerine, doğrulanabilir özelliklere ayrıştırılıyor. Yazar, iyi bir şakanın güncel, ilgili ve konusunu derinlemesine anladığını gösterdiğini, yani bir kavramı yeterince yüksek doğrulukla kavrayarak genel bir kitleye nasıl dalga geçileceğini bildiğini savunuyor. Bu özellikler, şakanın belirli kişilerden bahsetmesi, belirli sayılar kullanması veya tam olarak taahhütte bulunması gibi kriterlerle kontrol edilebilir.
Eğitimden sonra modelin ürettiği örnekler, Ramp'in uzaylı bir organizma olarak açıklanması, Dario Amodei hakkında esprili bir şaka veya New York metrosu hakkında Tommipink tarzı bir espri gibi yaratıcı ve özgün çıktılar sunuyor. Bu örnekler, modelin karmaşık ve soyut mizah kavramlarını anlama ve üretme yeteneğini gözler önüne seriyor ve niteliksel ödüllerle yapay zeka eğitiminde yeni bir yol açıyor.
Yapay zekanın soyut ve öznel insan kavramlarını anlaması ve üretmesi yolunda önemli bir adımı temsil ediyor.