Ana Sayfa

Parakeet.cpp: Metal GPU Hızlandırmalı Saf C++ Konuşma Tanıma

1 dk okuma

Parakeet.cpp, NVIDIA'nın Parakeet konuşma tanıma (ASR) modellerini saf C++ ile hızlı bir şekilde çalıştırmak için tasarlanmış açık kaynaklı bir kütüphanedir. Proje, hafif bir tensör kütüphanesi olan axiom üzerine inşa edilmiştir ve Apple Silicon GPU'larda otomatik Metal hızlandırması sunar. Bu sayede, ONNX runtime veya Python runtime gibi ağır bağımlılıklara ihtiyaç duymadan yüksek performans elde eder. Örneğin, 10 saniyelik bir ses için 110M modelde yaklaşık 27 milisaniye gibi etkileyici bir kodlayıcı çıkarım süresi sunarak, CPU'ya kıyasla 96 kat daha hızlı çalışır. Bu mimari, gömülü sistemler ve düşük gecikmeli uygulamalar için ideal bir çözüm sunar.

Kütüphane, farklı ihtiyaçlara yönelik çeşitli Parakeet modellerini destekler. Bunlar arasında İngilizce için çift CTC/TDT kod çözücülü tdt-ctc-110m, çok dilli tdt-600m ve akışlı tanıma için eou-120m ile ayarlanabilir gecikmeli çok dilli nemotron-600m bulunur. Ayrıca, 4 konuşmacıya kadar konuşmacı ayrımı yapabilen sortformer modeli de mevcuttur. Tüm ASR modelleri, 16kHz mono WAV sesini 80-bin Mel spektrogramına dönüştürüp FastConformer kodlayıcıdan geçiren standart bir ses işleme hattını kullanır.

Parakeet.cpp'nin kullanımı oldukça basittir. Bir Transcriber nesnesi oluşturup model ve kelime dağarcığı dosyalarını belirtmek yeterlidir. İsteğe bağlı olarak to_gpu() çağrısı ile Metal hızlandırma etkinleştirilebilir. Kullanıcılar, transcribe() fonksiyonu ile ses dosyalarını metne dönüştürebilir ve CTC veya TDT gibi farklı kod çözücüleri seçebilirler. Kelime bazında zaman damgaları almak da mümkündür. Akışlı tanıma için StreamingTranscriber veya NemotronTranscriber sınıfları kullanılırken, konuşmacı ayrımı için Sortformer modeli ile ses segmentleri analiz edilebilir. Bu esneklik, geliştiricilere geniş bir uygulama yelpazesi sunar.

İçgörü

Parakeet.cpp, NVIDIA'nın gelişmiş konuşma tanıma modellerini saf C++ ve Metal GPU hızlandırmasıyla sunarak yüksek performanslı ve hafif bir çözüm sağlıyor.

Kaynak