Ana Sayfa

Mistral Voxtral Realtime 4B için Saf C Konuşmadan Metne Dönüştürme Motoru

1 dk okuma

Mistral AI'ın Voxtral Realtime 4B konuşmadan metne dönüştürme modelinin çıkarım (inference) sürecini saf C dilinde uygulayan bu proje, harici bağımlılıkları sıfıra indirerek dikkat çekiyor. Sadece C standart kütüphanesini kullanan bu uygulama, özellikle Apple Silicon işlemcilerde MPS (Metal Performance Shaders) ile oldukça hızlı çalışırken, BLAS hızlandırması da kullanılabilir ancak bf16 ağırlıklarını sürekli fp32'ye dönüştürmesi nedeniyle daha yavaş kalıyor. Ses işleme, giriş uzunluğundan bağımsız olarak bellek kullanımını sınırlayan, çakışan pencerelere sahip parçalı bir kodlayıcı kullanıyor. Bu sayede, ses verileri stdin üzerinden veya macOS'ta mikrofondan canlı olarak alınabiliyor, bu da ffmpeg aracılığıyla herhangi bir formatın kolayca dönüştürülmesini ve yazıya dökülmesini sağlıyor. Ayrıca, artımlı ses beslemesi ve token dizelerinin anında alınması için bir streaming C API'si (vox_stream_t) de mevcut.

Projenin yaratıcısı, Mistral'ın modeli açık ağırlıklarla yayınlamasına rağmen, çıkarım sürecini yalnızca vLLM ortaklığıyla sınırlamasının modelin gerçek erişimini kısıtladığına inanıyor. Bu nedenle, vLLM kod tabanına girmeye gerek kalmadan herkesin okuyup anlayabileceği hem saf bir C çıkarım motoru hem de basit, bağımsız bir Python referans uygulaması sunuluyor. Bu, PyTorch ve birkaç standart kütüphane dışında ek bir bağımlılık gerektirmiyor.

Uygulama, Python runtime, CUDA toolkit, mistral_common veya vLLM gibi ek bileşenlere ihtiyaç duymadan doğrudan çalışabiliyor. Geliştiriciler, make mps veya make blas komutlarıyla projeyi derleyebilir, modeli indirebilir ve ses dosyalarını veya canlı mikrofon girişini kullanarak metne dönüştürme işlemlerini gerçekleştirebilirler. Proje henüz tam üretim kalitesinde olmasa da, modelin çıkarım mantığını ve sürecini anlamanın zor kısmını çözdüğü belirtiliyor. Özellikle uzun transkripsiyonlarla KV önbellek dairesel arabelleğini zorlayacak daha fazla test yapılması gerektiği vurgulanıyor.

İçgörü

Bu proje, gelişmiş bir konuşmadan metne dönüştürme modelini, minimal bağımlılıklarla ve yüksek performansla, geniş bir donanım yelpazesinde erişilebilir kılarak yapay zeka modellerinin dağıtımını ve kullanımını demokratikleştiriyor.

Kaynak