Ana Sayfa

Kendi Sunucusuz OCR Servisinizi 40 Satır Kodla Oluşturun

1 dk okuma

Birkaç ay önce, Gelman'ın "Bayesian Data Analysis" kitabının kopyasını istatistik odaklı bir yapay zeka ajanı için aranabilir hale getirmek isteyen yazar, mevcut OCR araçlarının kullanım limitleri veya yüksek maliyetleri nedeniyle kendi çözümünü geliştirmeye karar verdi. Özellikle binlerce sayfayı işlerken bu araçlar pahalı hale gelebiliyordu. DeepSeek'in matematiksel notasyonları iyi işleyen açık kaynaklı OCR modeli bu noktada devreye girdi, ancak yazarın eski GPU'su en yeni PyTorch versiyonlarını desteklemediği için bu modeli doğrudan çalıştıramadı. Bu sorunu aşmak için Modal adlı sunucusuz bir hesaplama platformunu kullanmaya yöneldi.

Modal, geliştiricilerin Python kodunu sunucuları yönetmeden bulut altyapısında çalıştırmasına olanak tanıyan bir platformdur. Makine öğrenimi iş yükleri için en önemli özelliği, bir container imajı tanımlayabilmeniz, bir GPU ekleyebilmeniz ve yalnızca kodunuzun çalıştığı saniyeler için ödeme yapmanızdır. Modal'ın dekoratör deseni sayesinde, özel donanım gerektiren fonksiyonlara dekoratörler ekleyerek normal Python kodu yazabilir ve Modal'ın container oluşturma, GPU sağlama ve istekleri yönlendirme gibi tüm arka plan işlemlerini halletmesini sağlayabilirsiniz. Bu yaklaşım, OCR gibi yoğun hesaplama gerektiren görevler için oldukça idealdir.

Yazar, bu makalede Modal üzerinde bir FastAPI sunucusu dağıtarak, resimleri kabul edip Markdown metni döndüren kendi OCR betiğini nasıl oluşturduğunu detaylandırıyor. Süreç, DeepSeek'in OCR modeli için gerekli olan PyTorch, transformers ve görüntü işleme kütüphanelerini içeren özel bir container imajı oluşturmakla başlıyor. Ardından, Modal'ın @modal.asgi_app() dekoratörü kullanılarak bir FastAPI uygulaması tanımlanıyor. Bu sayede Modal, GPU örneklerini başlatma ve HTTP isteklerini bunlara yönlendirme görevini üstleniyor. Bu çözüm, karmaşık sunucu yönetimi olmadan güçlü bir OCR servisi kurmanın pratik ve maliyet etkin bir yolunu sunuyor.

İçgörü

Sunucusuz platformlar ve açık kaynak yapay zeka modelleri bir araya gelerek, maliyet etkin ve ölçeklenebilir özel çözümler geliştirmeyi mümkün kılıyor.

Kaynak