Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği

Sopro (Portekizce'de "nefes/üfleme" anlamına gelir) adlı proje, Samuel Vitorino tarafından geliştirilen hafif bir İngilizce metin-konuşma (Text-to-Speech - TTS) modelidir. Geleneksel Transformer mimarisi yerine genişletilmiş evrişimli (dilated convs) ve hafif çapraz dikkat (cross-attention) katmanlarını kullanan Sopro, 169 milyon parametreye sahip olmasına rağmen düşük bütçeyle (tek bir L40S GPU üzerinde eğitilmiş) oluşturulmuştur. Model, çeşitli seslerde ve durumlarda en ileri seviyede olmasa da, geliştiricisi tarafından potansiyeli yüksek ve geliştirilebilir bir proje olarak görülmektedir.

Sopro'nun öne çıkan özellikleri arasında akış (streaming) desteği, sıfır atış ses klonlama (zero-shot voice cloning) yeteneği ve CPU üzerinde yüksek performans gösterir. Özellikle bir M3 temel modelinde 0.25 RTF (Gerçek Zaman Faktörü) ile çalışabilmesi, yani 7.5 saniyede 30 saniyelik ses üretebilmesi, modelin hafifliğini ve verimliliğini ortaya koymaktadır. Ses klonlama için sadece 3-12 saniyelik referans ses yeterlidir. Kurulumu basit olup, Python paketi olarak veya Docker ile kolayca dağıtılabilir. Modelin tutarsızlık gösterebildiği ve ses klonlamanın mikrofon kalitesi gibi dış etkenlere bağlı olduğu belirtilse de, parametre ayarlamalarıyla iyi sonuçlar alınabilir.

Sopro TTS, özellikle kaynak kısıtlı ortamlarda veya yerel cihazlarda yüksek performanslı metin-konuşma ve ses klonlama çözümleri arayan geliştiriciler için cazip bir seçenek sunmaktadır. Açık kaynak yapısı sayesinde topluluk tarafından daha da geliştirilme potansiyeline sahiptir.

Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Sopro TTS: CPU'da Çalışan, 169M Parametreli ve Sıfır Atış Ses Klonlama Yeteneği

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış

Benzer Haberler

LLM'ler Yazılım Sektöründe Bir Dönüm Noktası Yarattı: Geliştiriciler İçin Yeni Bir Çağ

Yapay Zeka Metinlerini Sorgusuz Paylaşmanın Sakıncaları

Büyük Dil Modeli Mimarileri Galerisi: LLM Tasarımlarına Derin Bakış