Ana Sayfa

Anthropic, İş Akışımı A/B Test Etme!

1 dk okuma

Yazar, Anthropic'in Claude Code üzerinde sessiz A/B testleri yürüterek kendi iş akışını aktif olarak bozmasından şikayetçi. Aylık 200 dolar ödediği bu profesyonel aracın, Instagram gibi etkileşim için optimize edilmesine değil, şeffaflık ve yapılandırılabilirlik sunmasına ihtiyaç duyduğunu belirtiyor. Meta gibi şirketlerden gelen ürün mühendisliği kültürünün, kullanıcılar üzerinde sessiz deneyler yapma iş modelini Anthropic'e taşıdığına dikkat çekiyor. Mühendislerin Claude Code'daki gerilemelerden şikayetçi olduğunu ve çoğu zaman bunun bir A/B testine dahil olmaktan kaynaklandığını ifade ediyor.

Yazar, Claude Code'un ikili dosyasını inceleyerek tengu_pewter_ledger adlı bir GrowthBook tarafından yönetilen A/B testini keşfettiğini anlatıyor. Bu testin, plan modunun nihai planı nasıl yazdığını kontrol eden dört farklı varyantı (null, trim, cut, cap) olduğunu belirtiyor. En agresif varyant olan "cap"in, planları 40 satırla sınırladığını, bağlam veya arka plan bölümlerini yasakladığını ve modelden "dosya yollarını değil, düz yazıyı silmesini" istediğini açıklıyor.

Yazarın bu "cap" varyantına atandığını ve herhangi bir soru-cevap aşaması olmadan, sıfır diyalogla, sadece kısa madde işaretlerinden oluşan bir planla karşılaştığını vurguluyor. Opt-in, bildirim veya geçiş seçeneği olmadan bu durumun yaşandığını ve ancak ikili dosyayı kendisi dekompile ederek anlayabildiğini belirtiyor. Plan çıkışında varyantın telemetri verileriyle kaydedildiğini ve Anthropic'in varyant atamasını plan uzunluğu ve görevin başarısıyla ilişkilendirdiğini, yani ücretli kullanıcıların bir deneyin parçası olduğunu ortaya koyuyor. Bu durumun şeffaflık ve sorumlu yapay zeka dağıtımının tam tersi olduğunu ve yapay zeka araçlarının daha fazla şeffaflığa ihtiyaç duyduğunu savunuyor.

İçgörü

Yapay zeka araçlarında şeffaflık ve kullanıcı kontrolünün eksikliği, profesyonel iş akışlarını olumsuz etkileyerek kullanıcı güvenini zedeleyebilir ve araçların etkinliğini azaltabilir.

Kaynak