“The Illustrated Transformer” makalesi, modern derin öğrenme modellerinde yaygın olarak kullanılan ve sinirsel makine çevirisi uygulamalarının performansını artıran Attention mekanizmasını temel alan Transformer modelini detaylı bir şekilde inceliyor. Transformer, modellerin eğitim hızını önemli ölçüde artırmak için Attention'ı kullanır ve belirli görevlerde Google Neural Machine Translation (GNMT) modelinden daha iyi performans gösterir. En büyük avantajı ise paralelleştirmeye elverişli yapısıdır; bu özelliği sayesinde Google Cloud'un Cloud TPU tekliflerini kullanmak için referans model olarak önerilmektedir. Makale, konuya derinlemesine bilgi sahibi olmayanlar için bile Transformer'ın işleyişini adım adım ve basitleştirerek açıklamayı hedefliyor.
Transformer modeli, “Attention is All You Need” adlı makalede tanıtılmıştır. Yüksek seviyede bakıldığında, model tek bir kara kutu gibi çalışır: bir dildeki cümleyi alır ve başka bir dildeki çevirisini çıktı olarak verir. Bu kara kutunun içine girildiğinde, bir kodlama (encoding) bileşeni, bir kod çözme (decoding) bileşeni ve bunlar arasındaki bağlantılar görülür. Kodlama bileşeni, her biri aynı yapıda olan ancak ağırlıkları paylaşmayan bir dizi kodlayıcıdan (encoder) oluşur; makale altı adet kodlayıcıdan bahseder ancak bu sayı deneysel olarak değiştirilebilir. Kod çözme bileşeni de aynı sayıda kod çözücüden (decoder) meydana gelir.
Her bir kodlayıcı, iki alt katmana ayrılmıştır. İlk olarak, girdiler bir "self-attention" katmanından geçer. Bu katman, kodlayıcının belirli bir kelimeyi kodlarken giriş cümlesindeki diğer kelimelere bakmasına yardımcı olur. Self-attention katmanının çıktıları daha sonra bir ileri beslemeli sinir ağına (feed-forward neural network) iletilir. Bu mimari, Transformer'ın geleneksel sıralı işlem gerektiren RNN ve CNN tabanlı modellere kıyasla çok daha verimli ve hızlı bir şekilde öğrenmesini sağlar, özellikle uzun dizilerle çalışırken büyük avantaj sunar. Makale, bu karmaşık yapıyı görselleştirmelerle ve adım adım açıklamalarla anlaşılır kılmayı amaçlar.
Yapay zeka ve doğal dil işleme alanında devrim yaratan Transformer mimarisi, paralel işlem yeteneği sayesinde model eğitim sürelerini kısaltarak büyük ölçekli dil modellerinin geliştirilmesinin önünü açmıştır.