Sopro (Portekizce'de "nefes/üfleme" anlamına gelir) adlı proje, Samuel Vitorino tarafından geliştirilen hafif bir İngilizce metin-konuşma (Text-to-Speech - TTS) modelidir. Geleneksel Transformer mimarisi yerine genişletilmiş evrişimli (dilated convs) ve hafif çapraz dikkat (cross-attention) katmanlarını kullanan Sopro, 169 milyon parametreye sahip olmasına rağmen düşük bütçeyle (tek bir L40S GPU üzerinde eğitilmiş) oluşturulmuştur. Model, çeşitli seslerde ve durumlarda en ileri seviyede olmasa da, geliştiricisi tarafından potansiyeli yüksek ve geliştirilebilir bir proje olarak görülmektedir.
Sopro'nun öne çıkan özellikleri arasında akış (streaming) desteği, sıfır atış ses klonlama (zero-shot voice cloning) yeteneği ve CPU üzerinde yüksek performans gösterir. Özellikle bir M3 temel modelinde 0.25 RTF (Gerçek Zaman Faktörü) ile çalışabilmesi, yani 7.5 saniyede 30 saniyelik ses üretebilmesi, modelin hafifliğini ve verimliliğini ortaya koymaktadır. Ses klonlama için sadece 3-12 saniyelik referans ses yeterlidir. Kurulumu basit olup, Python paketi olarak veya Docker ile kolayca dağıtılabilir. Modelin tutarsızlık gösterebildiği ve ses klonlamanın mikrofon kalitesi gibi dış etkenlere bağlı olduğu belirtilse de, parametre ayarlamalarıyla iyi sonuçlar alınabilir.
Sopro TTS, özellikle kaynak kısıtlı ortamlarda veya yerel cihazlarda yüksek performanslı metin-konuşma ve ses klonlama çözümleri arayan geliştiriciler için cazip bir seçenek sunmaktadır. Açık kaynak yapısı sayesinde topluluk tarafından daha da geliştirilme potansiyeline sahiptir.
Bu hafif ve CPU dostu metin-konuşma modeli, sınırlı donanım kaynaklarına sahip sistemlerde bile gelişmiş ses sentezi ve sıfır atış ses klonlama yetenekleri sunarak erişilebilirliği artırıyor.