Steerling-8B, Guide Labs tarafından geliştirilen ve dil modellerinin davranışlarını doğrudan kontrol etmeyi sağlayan yenilikçi bir mimaridir. Bu model, "kavram cebiri" (concept algebra) adı verilen bir yetenek sunarak, kullanıcıların çıkarım (inference) anında insan tarafından anlaşılabilir kavramları eklemesine, çıkarmasına veya birleştirmesine olanak tanır. Bu sayede, modelin ürettiği çıktılar, yeniden eğitim veya karmaşık prompt mühendisliği gerektirmeden doğrudan yönlendirilebilir. Steerling-8B, modelin öğrendiği herhangi bir kavramı doğrudan enjekte etme veya bastırma yeteneğiyle, prompt'u değiştirmeden modelin dahili temsillerini düzenlemeyi mümkün kılar.
Mevcut dil modeli kontrol yöntemleri genellikle sınırlıdır. Prompt kullanımı erişilebilir olsa da güvenilmezdir ve sistem prompt'ları düşmanca girdilerle geçersiz kılınabilir. İnce ayar (fine-tuning) yöntemleri daha fazla kontrol sunsa da yüksek maliyetlidir ve tek bir davranışı bastırmak diğerlerini olumsuz etkileyebilir. Ayrıca, her yeni yönlendirme hedefi için tam yeniden eğitim gerektirir. Model sonrası yorumlanabilirlik (post-hoc interpretability) yöntemleri ise kırılgan yapıları yönlendirmeye çalışır ve kavramların birleştirilebilirliği konusunda garanti vermez. Guide Labs, güvenilir, birleştirilebilir ve hassas kontrol için modelin baştan tasarlanması gerektiğine inanmaktadır.
Steerling-8B'nin temelinde, her tahmini insan tarafından yorumlanabilir kavramlar üzerinden geçmeye zorlayan bir "kavram modülü" (concept module) bulunur. Bu mimari darboğaz, kara kutu modellerde bulunmayan, üretimi yönlendiren dahili değişkenler üzerinde temiz, cebirsel bir kontrol sağlar. Bu yaklaşım, özellikle çok turlu diyaloglar gibi karmaşık senaryolarda, örneğin toksisiteyi bastırırken akıcılığı koruyan bir içerik denetimi veya yasal sonuçları göz önünde bulundurarak tıbbi rehberlik sağlayan bir sağlık asistanı gibi durumlarda, bileşimsel kontrol imkanı sunar.
Bu teknoloji, dil modellerinin davranışlarını yeniden eğitim veya prompt mühendisliği olmaksızın, insan tarafından anlaşılabilir kavramlar aracılığıyla doğrudan ve hassas bir şekilde kontrol etme imkanı sunuyor.