Tauformer, geleneksel transformer modellerindeki nokta-çarpım dikkat mekanizmasını, Laplacian tabanlı skalerler (taumode) ile değiştiren yenilikçi bir topolojik transformer mimarisidir. Bu yaklaşım, her token ve head için bir taumode skaler değeri üreterek, dikkat mekanizmasını bu skaler uzaydaki mesafelere göre yönlendirir. Temel amacı, bir etki alanı gömme uzayından (domain memory) oluşturulan bir Graf Laplacian'ı kalıcı bir referans olarak kullanarak, etki alanı yapısını doğrudan dikkat mekanizmasına enjekte etmektir. Böylece, anahtarları genel geometrik benzerlik yerine, etki alanıyla ilgili ilişkiler doğrultusunda sıralayarak dikkat mekanizmasını daha hedefe yönelik hale getirmeyi hedefler.
Uygulama düzeyinde Tauformer, Q/K/V projeksiyonları, RoPE, nedensel maskeleme ve stabil softmax/değer toplama gibi tanıdık transformer bileşenlerini korur. Ancak, dikkat logitlerinin hesaplanma şeklini değiştirir. Her head vektörü, bir özellik uzayı Laplacian'ı (L) ile hesaplanan sınırlı bir Rayleigh-quotient enerjisi kullanılarak bir (\lambda) skalerine sıkıştırılır. Logitler daha sonra bu skalerler arasındaki negatif mesafe ((-|\lambda_q-\lambda_k|/\text{temperature})) olarak hesaplanır. Bu tasarım, dikkat mekanizmasını daha anlamlı ve bağlama duyarlı hale getirmeyi amaçlar.
Tauformer'ın önemli avantajlarından biri, maliyet etkinliğidir. Geleneksel transformer'ların aksine, KV-cache'i tam anahtar vektörleri yerine sadece değerleri (V) ve kompakt anahtar tarafı skaler akışını ((\lambda_k)) saklar. Bu durum, tipik head boyutları için katman başına önbellek boyutunda yaklaşık %50'lik bir azalma sağlar. Ayrıca, (\lambda) hesaplaması için önceden hesaplanmış bir etki alanı manifoldundan seyrek bir Laplacian kullanma potansiyeli, hesaplama maliyetlerini daha da düşürebilir. Makalede, 30 milyon parametreli bir TauGPT modelinin AdamW optimizer ve belirli öğrenme oranıyla eğitildiği ve veri setinin %5'inin doğrulama için kullanıldığı belirtilmiştir. Bu ilk eğitim sinyalleri, Tauformer'ın potansiyelini göstermektedir.
Tauformer, dikkat mekanizmasını etki alanına özgü yapılarla zenginleştirerek, transformer modellerinin verimliliğini ve bağlamsal anlayışını artırma potansiyeli sunuyor.