Yazar, sıfırdan oluşturulan bir GPT-2 küçük temel modelinin test kaybını iyileştirmek amacıyla çeşitli müdahaleler denemektedir. Sebastian Raschka'nın "Build a Large Language Model (from Scratch)" kitabındaki kod tabanını kullanarak yapılan bu çalışmada, üçüncü müdahale olarak dikkat ağırlık matrislerine (attention weight matrices) bias eklenmesi ele alınmıştır. Kitaptaki MultiHeadAttention sınıfında W_query, W_key ve W_value katmanları nn.Linear olarak tanımlanmış ve qkv_bias parametresi ile bias eklenip eklenmeyeceği kontrol edilmektedir. Mevcut eğitimlerde bu parametre False olarak ayarlanmıştır.
Raschka'nın kitabında nn.Linear kullanımının temel amacı, modelin daha kararlı ve etkili bir şekilde eğitilmesine katkıda bulunan optimize edilmiş ağırlık başlatma şeması sunması olarak açıklanmıştır. Ancak, eğer tek neden buysa, bias=False olarak sabitlenmesi mantıklı olurdu. Kitabın ilerleyen bölümlerinde, qkv_bias'ın başlangıçta modern LLM normlarına uygun olarak devre dışı bırakıldığı, ancak OpenAI'den önceden eğitilmiş GPT-2 ağırlıkları yüklendiğinde tekrar ele alınacağı belirtilmiştir. Asıl açıklama, OpenAI'nin orijinal GPT-2 modellerinde sorgu, anahtar ve değer matris hesaplamaları için bias vektörleri kullandığı, ancak günümüz LLM'lerinde model performansını iyileştirmediği için genellikle kullanılmadığı yönündedir. Bu deney, bu eski mimari seçeneğin güncel bir model üzerindeki etkisini araştırmayı amaçlamaktadır.
Bu çalışma, büyük dil modellerinin mimari detaylarındaki küçük değişikliklerin model performansı üzerindeki potansiyel etkilerini ve tarihsel tasarım kararlarının günümüzdeki geçerliliğini araştırmaktadır.