Alibaba Cloud tarafından geliştirilen Qwen3-ASR ailesi, konuşma tanıma teknolojilerinde önemli bir ilerlemeyi temsil ediyor. Bu aile, iki güçlü hepsi bir arada konuşma tanıma (ASR) modeli olan Qwen3-ASR-1.7B ve Qwen3-ASR-0.6B'yi ve yenilikçi, otoregresif olmayan bir konuşma zorunlu hizalama modeli olan Qwen3-ForcedAligner-0.6B'yi içeriyor. Her iki ASR modeli de 52 farklı dil ve lehçede dil tanımlama ve konuşma tanıma yetenekleri sunarak geniş bir kullanım alanı sağlıyor. Bu modeller, büyük ölçekli konuşma eğitim verilerinden ve temel model Qwen3-Omni'nin güçlü ses anlama kapasitesinden faydalanıyor.
Yapılan kapsamlı dahili değerlendirmeler, Qwen3-ASR-1.7B sürümünün açık kaynaklı ASR modelleri arasında en iyi performansı (SOTA) sergilediğini ve en güçlü özel API'lerle rekabet edebilecek düzeyde olduğunu gösteriyor. Qwen3-ASR-0.6B ise doğruluk ve verimlilik arasında en iyi dengeyi sunuyor; ortalama 92 milisaniye gibi düşük bir İlk Token Süresi (TTFT) elde edebiliyor ve 128 eşzamanlılıkta 2000 saniyelik konuşmayı sadece 1 saniyede yazıya dökebiliyor. Bu, özellikle gerçek zamanlı uygulamalar için kritik bir avantaj.
Qwen3-ForcedAligner-0.6B ise, 11 dilde metin-konuşma çiftlerini hizalayabilen, Büyük Dil Modeli (LLM) tabanlı, otoregresif olmayan bir zaman damgası tahmincisi olarak öne çıkıyor. Zaman damgası doğruluk deneyleri, bu modelin en güçlü üç zorunlu hizalama modelini geride bıraktığını ve verimlilik ile çok yönlülük açısından önemli avantajlar sunduğunu ortaya koyuyor. Alibaba Cloud, ASR ve ses anlama alanındaki topluluk araştırmalarını hızlandırmak amacıyla bu modelleri Apache 2.0 lisansı altında açık kaynak olarak yayınladı. Bu adım, yapay zeka tabanlı konuşma teknolojilerinin daha geniş kitlelere ulaşmasına ve geliştirilmesine katkıda bulunacak.
Bu yeni açık kaynaklı ASR modelleri, konuşma tanıma ve ses anlama teknolojilerinde hem performansı hem de erişilebilirliği artırarak yapay zeka uygulamaları için yeni ufuklar açıyor.