Kreuzberg, geniş bir dosya formatı yelpazesinden metin ve meta veri çıkarmak, gömülü veriler (embeddings) oluşturmak ve bunları yerel hızlarda, GPU'ya ihtiyaç duymadan işlemek için tasarlanmış güçlü bir açık kaynak projesidir. Proje, PDF'lerden Office belgelerine, görsellerden e-postalara ve akademik formatlara kadar 56'dan fazla farklı dosya türünü destekleyerek veri işleme süreçlerini oldukça kolaylaştırır. Esnek ve genişletilebilir bir mimariye sahip olan Kreuzberg, özel OCR arka uçları, doğrulayıcılar, son işlemciler ve belge çıkarıcılar için bir eklenti sistemi sunar, bu da onu çeşitli kullanım senaryolarına uyarlanabilir kılar.
Rust çekirdeği üzerine inşa edilen Kreuzberg, PDFium, SIMD optimizasyonları ve tam paralellik sayesinde yüksek performans ve bellek verimliliği sunar. Çok gigabaytlık dosyalar için akışlı ayrıştırıcılar kullanarak büyük veri setleriyle bile sorunsuz çalışır. Python, Ruby, PHP, Elixir, Node.js/TypeScript, Go, Java, C# ve Rust gibi birçok popüler programlama dili için yerel bağlayıcılar (native bindings) sağlayarak geliştiricilere geniş bir entegrasyon yelpazesi sunar. Bu diller için önceden derlenmiş ikili dosyalar sayesinde kurulum ve kullanım kolaylığı sağlanmıştır.
Kreuzberg, bir kütüphane, CLI aracı, REST API sunucusu veya MCP sunucusu olarak esnek dağıtım seçenekleri sunar. Docker konteynerleri aracılığıyla da kolayca dağıtılabilir. Linux, macOS ve Windows gibi çeşitli işletim sistemlerinde x86_64 ve aarch64 mimarileri için kapsamlı destek sunar. Ayrıca, ONNX Runtime entegrasyonu ile metin gömülü verileri oluşturma yeteneği, projenin modern veri işleme ve yapay zeka uygulamaları için de güçlü bir araç olmasını sağlar. Bu özellikleriyle Kreuzberg, farklı dosya formatlarından yapılandırılmış veri elde etmek isteyen geliştiriciler ve kuruluşlar için kapsamlı bir çözüm sunmaktadır.
Kreuzberg, geniş dosya formatı desteği ve çoklu dil bağlayıcıları sayesinde veri çıkarma ve işleme süreçlerini basitleştirerek geliştiricilere önemli bir esneklik ve performans avantajı sağlıyor.