Arcee, 400 milyar parametreli seyrek MoE modeli Trinity-Large'ı tanıttı. Geliştiricilere açık ağırlıklar, güçlü muhakeme yeteneği ve tam kontrol sunan bu model, Trinity Mini'nin ardından şirketin ön eğitim konusundaki kararlılığının bir göstergesi. Trinity-Large, 13 milyar aktif parametre ve token başına 4 aktif uzman ile 256 uzman kullanıyor, bu da onu benzerlerine kıyasla oldukça seyrek bir yapıya sahip kılıyor. Modelin üç farklı varyantı bulunuyor: hafifçe sonradan eğitilmiş ve sohbet için hazır olan Trinity-Large-Preview; 17 trilyon tokenlık tam eğitim sürecinden sonraki en iyi ön eğitim kontrol noktası olan Trinity-Large-Base; ve 10 trilyon tokenda, herhangi bir talimat verisi veya öğrenme oranı düşüşü olmadan elde edilen, gerçek bir temel model olarak kabul edilen TrueBase.
Trinity-Large-Base, matematik, kodlama, bilimsel muhakeme ve bilgi edinimi gibi geniş bir yelpazedeki kıyaslamalarda açık temel modeller arasında rakiplerini geride bırakarak veya onlarla eşleşerek öncü sınıf bir temel model olduğunu kanıtladı. Modelin eğitimi, 2048 adet Nvidia B300 GPU üzerinde sadece 30 gün gibi rekor bir sürede tamamlandı. Bu, belirtilen bu makinelerde gerçekleştirilen en büyük ön eğitim çalışmalarından biri olarak öne çıkıyor. Arcee, bu ölçekteki bir eğitim için inanılmaz derecede hızlı bir süre olan 30 gün içinde maksimum verimlilik elde etmek amacıyla yüksek seyrekliği ve teknik raporlarında detaylandırılan verimli dikkat mekanizmasını kullandı.
Bu optimizasyonlar sayesinde Trinity-Large, aynı donanımda rakiplerine göre 2-3 kat daha hızlı eğitim ve çıkarım yapabiliyor ve performanstan ödün vermiyor. MoE yönlendirmesini kontrol altında tutmak için, her uzmanın yönlendirici eğilimi, kullanım oranına göre ayarlanıyor ve bu süreç, dengeli yük dağılımı sağlamak için momentum ve dizi başına denge kaybı ile destekleniyor. Bu yenilikçi yaklaşımlar, Arcee'nin büyük ölçekli dil modellerini daha erişilebilir ve verimli hale getirme hedefine ulaşmasını sağlıyor.
Arcee'nin Trinity-Large modeli, açık kaynaklı büyük dil modelleri alanında performans ve verimlilikte yeni bir standart belirleyerek geliştiricilere güçlü ve kontrol edilebilir bir alternatif sunuyor.