Hud'daki mühendisler, üretim ortamındaki hataları ayıklamak için harcadıkları zamanı azaltmak amacıyla, Sentry, Supabase, Railway ve Kubernetes gibi farklı platformlarda araştırma yapabilen bir takviyeli öğrenme (RL) ortamı geliştirdi. Gelişen startup'larda mühendislerin zamanının %10-20'si hata ayıklamayla geçiyor ve bu süreç genellikle mekanik adımlar içeriyor. Büyük Dil Modellerine (LLM) doğrudan 104 farklı araca erişim vermek yerine, yazarlar her biri kendi araç setine sahip alt ajanların bulunduğu bir orkestratör mimarisi tasarladı. Bu yaklaşım, tek bir ajanın tüm araçlara erişim sağlamaya çalışmasının getirdiği karmaşıklığı ortadan kaldırıyor.
Ana fikir, tek bir ajana tüm araçları vermek yerine, her biri belirli bir hizmete (örneğin Sentry, Supabase, Kubernetes) odaklanmış alt ajanları koordine eden bir orkestratör ortamı oluşturmaktır. Her alt ajan, kendi senaryoları, araçları ve ödül sinyalleri ile bağımsız bir RL ortamı olarak işlev görür. Bu sayede, alt ajanlar önce kendi özel görevleri üzerinde eğitilir, ardından orkestratör ortamında bir araya getirilirler. Bu mimari, cross-service-diagnostics adıyla GitHub'da açık kaynak olarak yayınlandı ve kullanıcıların kendi üretim API anahtarlarını entegre ederek kendi hata ayıklama ajanlarını oluşturmalarına olanak tanıyor.
Sentry alt ajanını eğitmek için, gerçek üretim sistemlerinden 24 farklı hata görevi kullanıldı. Bu görevler, şema doğrulama hataları, hız sınırlamaları, kimlik doğrulama tokeni süre sonu gibi çeşitli hata türlerini ve ciddiyet seviyelerini kapsıyordu. Her görevin, ajanın belirli bilgileri (örneğin bir sorun kimliği veya hata mesajı) bulmasını gerektiren doğrulanabilir kriterleri vardı. Gerçek üretim verileriyle yapılan bu eğitim sayesinde, sistemin hata ayıklama performansında 2 kat iyileşme gözlemlendi.
Üretim ortamındaki karmaşık hataları ayıklamak için tek bir büyük yapay zeka yerine, özelleşmiş alt ajanların koordineli çalıştığı bir takviyeli öğrenme (RL) ortamı geliştirilerek hata çözme süresinde önemli bir iyileşme sağlandı.