Öneri sistemlerinin çevrimdışı değerlendirme yöntemleri, genellikle denetimli öğrenme modellerinin değerlendirilmesine benzer şekilde, geçmiş kullanıcı etkileşim verilerini eğitim ve doğrulama setlerine ayırarak yapılır. Ancak yazar, bu yaklaşımın temel bir sorun taşıdığını belirtiyor: Öneri sistemleri, gözlemsel bir problemden ziyade müdahaleci bir problem olarak ele alınmalıdır. Gözlemsel problemler, mevcut verilerden bir tahminde bulunurken (örneğin, ürün özelliklerinden kategori tahmini), öneri sistemleri, belirli önerilerin (müdahalelerin) tıklama veya satın alma gibi farklı sonuçlara nasıl yol açtığını anlamayı hedefler. Mevcut çevrimdışı değerlendirme yöntemleri, modellerin yeni önerilerin kullanıcılarda nasıl bir etki yaratacağını değil, yalnızca geçmiş verilere ne kadar uyduğunu ölçer.
Öneri sistemlerini müdahaleci bir problem olarak değerlendirmenin en doğrudan yolu A/B testleridir. Bu testler, yeni önerilerin kullanıcılara gösterilmesi ve gerçek davranışlarının ölçülmesiyle tıklama oranları veya dönüşümler gibi metriklerdeki değişiklikleri doğrudan ortaya koyar. Ancak A/B testleri, yüksek çaba gerektirmesi, uzun deney döngüleri ve kötü deneylerin dağıtılma riski gibi dezavantajlara sahiptir. Araştırma tarafında çalışanlar için A/B testlerine erişim de her zaman kolay olmayabilir.
Bu kısıtlamalar karşısında, karşıolgusal değerlendirme (counterfactual evaluation) daha az doğrudan ancak etkili bir yaklaşım sunar. Karşıolgusal değerlendirme, "kullanıcılara mevcut öneriler yerine yeni öneriler gösterseydik ne olurdu?" sorusuna yanıt arar. Bu yöntem, potansiyel A/B testlerinin sonuçlarını fiilen çalıştırmadan tahmin etmemizi sağlar. En bilinen karşıolgusal değerlendirme tekniği ise Inverse Propensity Scoring (IPS) olarak adlandırılır. IPS, her bir etkileşimin sıklığını yeniden ağırlıklandırarak müşteri etkileşimlerinin nasıl değişeceğini tahmin etmeye çalışır.
Öneri sistemlerinin gerçek dünya etkisini doğru bir şekilde ölçmek için müdahaleci doğalarını göz önünde bulunduran karşıolgusal değerlendirme yöntemleri kritik öneme sahiptir.