Ana Sayfa

Mistral AI'dan Yeni Nesil Konuşmadan Metne Teknolojisi: Voxtral Transcribe 2

1 dk okuma

Mistral AI, konuşmadan metne dönüştürme alanında çığır açan yeni nesil modelleri Voxtral Transcribe 2'yi duyurdu. Bu seri, toplu işlem için Voxtral Mini Transcribe V2 ve canlı uygulamalar için ultra düşük gecikmeli Voxtral Realtime olmak üzere iki ana modelden oluşuyor. Voxtral Transcribe 2 modelleri, gelişmiş transkripsiyon kalitesi, konuşmacı ayrımı (diarization) ve sektör lideri verimlilik sunuyor. Ayrıca, kullanıcıların transkripsiyonu anında test edebilmeleri için Mistral Studio içinde bir ses oyun alanı da kullanıma sunuldu.

Voxtral Realtime, özellikle gecikmenin kritik olduğu canlı uygulamalar için tasarlanmıştır. Ses verilerini parça parça işleyen geleneksel yaklaşımların aksine, Realtime ses geldikçe transkripsiyon yapan yenilikçi bir akış mimarisi kullanır. Bu sayede, gecikme süresi 200 milisaniyenin altına kadar yapılandırılabilir, bu da sesli asistanlar ve gerçek zamanlı uygulamalar için yeni olanaklar sunar. Model, 13 dilde güçlü performans gösterir ve Apache 2.0 lisansı altında açık kaynak olarak sunulmuştur, bu da kenar cihazlarda gizlilik odaklı dağıtımlara imkan tanır.

Voxtral Mini Transcribe V2 ise diller ve alanlar genelinde transkripsiyon ve konuşmacı ayrımı kalitesinde önemli iyileştirmeler sağlıyor. FLEURS kıyaslama testinde yaklaşık %4 kelime hata oranı ve dakika başına 0.003 dolarlık maliyetle, herhangi bir transkripsiyon API'si arasında en iyi fiyat-performansı sunuyor. Bu model, 13 dilde konuşmacı ayrımı, bağlam ön yargısı ve kelime düzeyinde zaman damgaları ile son teknoloji transkripsiyon yetenekleri sunarak, toplu transkripsiyon ihtiyaçları için ideal bir çözüm haline geliyor.

İçgörü

Mistral AI'ın yeni konuşmadan metne modelleri, hem canlı hem de toplu transkripsiyon ihtiyaçları için yüksek doğruluk, düşük gecikme ve maliyet etkinliği sunarak yapay zeka destekli ses uygulamalarında yeni bir dönemi başlatıyor.

Kaynak