zi2zi-JiT, Çince yazı tipi stil transferi için tasarlanmış, JiT (Just image Transformer) modelinin koşullu bir varyantıdır. Bu sistem, verilen bir kaynak karakteri ve bir stil referansını kullanarak karakteri hedef yazı tipi stilinde sentezler. Mimari, temel JiT modelini üç ana bileşenle genişletir: giriş karakterinin yapısal düzenini yakalayan bir İçerik Kodlayıcı (Content Encoder), hedef yazı tipindeki referans bir gliften stilistik özellikleri çıkaran bir Stil Kodlayıcı (Style Encoder) ve orijinal JiT'teki tek bir kategori belirteci yerine yazı tipi, stil ve içerik gömülülerini birleşik bir koşullandırma dizisine birleştiren Çok Kaynaklı Bağlam İçi Karıştırma (Multi-Source In-Context Mixing). Bu yenilikler, özellikle karmaşık CJK karakterleri için yüksek doğrulukta yazı tipi sentezi sağlıyor.
Modelin iki varyantı, JiT-B/16 ve JiT-L/16, 400'den fazla yazı tipinden (basitleştirilmiş Çince, geleneksel Çince ve Japonca dillerini kapsayan) oluşan 300 binden fazla karakter görüntüsü üzerinde 2.000 epoch boyunca eğitilmiştir. Her yazı tipi için maksimum 800 karakter kullanılmıştır. Üretilen glifler, FontDiffuser protokolüne göre zemin gerçekliği referanslarına karşı değerlendirilmiş ve FID, SSIM, LPIPS, L1 gibi metriklerde başarılı sonuçlar elde edilmiştir. Proje, kullanıcıların kendi veri setlerini oluşturmaları, önceden eğitilmiş modelleri indirmeleri ve LoRA kullanarak tek bir GPU üzerinde hızlıca ince ayar yapmaları için kapsamlı kurulum ve kullanım talimatları sunar. Özellikle tek bir yazı tipinin ince ayarı, güçlü bir donanımda bir saatten az sürebilir, bu da geliştiriciler ve tasarımcılar için büyük bir zaman tasarrufu sağlar.
Bu proje, karmaşık CJK karakterleri için yüksek kaliteli yazı tipi sentezini otomatize ederek grafik tasarım ve dijital yayıncılık alanlarında önemli verimlilik artışları sunuyor.