Golden setler, olasılıksal davranışları test etmek için kullanılan bir tür birim testidir. Özellikle yapay zeka sistemlerinde, bir değişikliğin beklenmedik kalite düşüşlerine yol açmasını engellemek amacıyla tasarlanmış, özenle seçilmiş senaryolar, versiyonlanmış değerlendirme kuralları ve kabul eşiklerinden oluşur. Bu setler, "daha iyi görünüyor" algısını "gerçekten daha iyi" veya "önceki versiyona göre daha az maliyetli şekilde bozuldu" gibi somut verilere dönüştürmeyi sağlar. Yazar, yapay zeka sistemlerini test etmeden veya değerlendirmeden yayınlamanın ciddi sorunlara yol açabileceğini vurguluyor.
Gerçek bir golden set, sadece bir veri kümesi değildir; temsilci girdileri, beklenen iyi davranışın açık bir tanımını, bir değerlendirme rubriğini, puanlama yönteminin sabitlenmiş versiyonlarını ve bir değişikliğin yayınlanıp yayınlanmayacağını belirleyen kabul eşiklerini bir araya getirir. Yapay zeka sistemleri, kulağa mantıklı gelen ancak aslında hatalı olan regresyonlar üretme konusunda oldukça başarılıdır. Örneğin, bir prompt değişikliği bir tür yanıtı iyileştirirken, reddetme davranışını sessizce bozabilir. Bir model yükseltmesi daha akıllı görünse de, politika kısıtlamaları altında daha az güvenilir hale gelebilir.
Golden setler olmadan bu tür regresyonlar genellikle müşteriler, nöbetçi mühendisler, finans veya uyumluluk ekipleri tarafından keşfedilir ki bunların hiçbiri ideal geri bildirim kanalları değildir. Golden setlerin amacı, bu keşfi üretimden önceye çekmektir. Temel olarak, bir iş akışının önceki sürüme kıyasla iyileşip iyileşmediğini, gerileyip gerilemediğini veya sadece görünüşünü değiştirip değiştirmediğini üretimden önce yanıtlar. Her ciddi olay, golden sete yeni bir vaka eklenmesi için bir fırsat olarak görülmeli, her vaka minimum girdi yükü, bağlam kısıtlamaları ve beklenen sonuç gibi öğeleri içermelidir.
Yapay zeka sistemlerindeki regresyonları üretim öncesinde tespit ederek maliyetli hataları önler ve kalite güvencesini artırır.