Ana Sayfa

Rust ile Tarayıcıda Gerçek Zamanlı Voxtral Mini 4B Konuşma Tanıma

1 dk okuma

Bu proje, Mistral'ın Voxtral Mini 4B Realtime modelinin saf Rust ile geliştirilmiş bir uygulamasını sunuyor. Burn ML framework'ü kullanılarak oluşturulan bu sistem, gerçek zamanlı konuşma tanıma yeteneğini hem yerel ortamda hem de doğrudan web tarayıcısında çalıştırma imkanı sağlıyor. Özellikle dikkat çekici olan, modelin Q4 GGUF nicelenmiş versiyonunun (yaklaşık 2.5 GB) WASM ve WebGPU teknolojileri sayesinde tamamen istemci tarafında, bir tarayıcı sekmesi içinde çalışabilmesidir. Bu sayede kullanıcılar, büyük bir yapay zeka modelini herhangi bir sunucuya ihtiyaç duymadan kendi cihazlarında çalıştırarak ses dosyalarını veya mikrofon girişlerini metne dönüştürebiliyorlar.

Tarayıcıda 4 milyar parametreli bir modeli çalıştırmak, geliştiricilerin karşılaştığı önemli teknik zorlukları beraberinde getirmiştir. Bunlar arasında 2 GB'lık bellek tahsis limiti, 4 GB'lık adres alanı kısıtlaması ve 1.5 GiB boyutundaki embedding tablosunun yönetimi gibi konular bulunmaktadır. Proje, bu kısıtlamaları aşmak için ShardedCursor ile çoklu bellek tamponları arasında okuma, iki aşamalı model yükleme ve Q4 nicelenmiş embedding'leri GPU üzerinde tutarken CPU tarafında satır aramaları yapma gibi yenilikçi çözümler geliştirmiştir. Ayrıca, senkron GPU okuma kısıtlaması da into_data_async().await kullanımıyla aşılmıştır.

Proje ayrıca, upstream mistral-common kütüphanesinden kaynaklanan bir ses dolgusu sorununa da değiniyor. Q4_0 nicemlemesinin, kod çözücüyü önekteki konuşma içeriğine duyarlı hale getirmesi nedeniyle, doğrudan konuşmayla başlayan ses kayıtlarında metin yerine dolgu token'ları üretildiği tespit edilmiştir. Bu sorun, sol dolgu miktarının 76 tokene çıkarılmasıyla çözülerek, kod çözücünün tüm akış önekini sessizlikle kaplaması sağlanmıştır. Bu iyileştirmeler, modelin tarayıcı ortamında daha güvenilir ve doğru çalışmasına olanak tanımaktadır.

İçgörü

Bu proje, büyük yapay zeka modellerinin istemci tarafında, tarayıcıda çalıştırılmasının önündeki teknik engelleri aşarak erişilebilirliği ve kullanım kolaylığını önemli ölçüde artırıyor.

Kaynak