GLM-OCR, karmaşık belge anlama yetenekleri sunan, GLM-V kodlayıcı-kod çözücü mimarisi üzerine inşa edilmiş çok modlu bir Optik Karakter Tanıma (OCR) modelidir. Eğitim verimliliğini, tanıma doğruluğunu ve genelleme yeteneğini artırmak için Multi-Token Prediction (MTP) kaybı ve kararlı tam görev takviyeli öğrenme gibi yenilikçi yaklaşımları benimser. Model, geniş ölçekli görsel-metin verileri üzerinde önceden eğitilmiş CogViT görsel kodlayıcıyı, verimli token örneklemesi yapan hafif bir çapraz modlu bağlayıcıyı ve bir GLM-0.5B dil kod çözücüyü entegre eder. PP-DocLayout-V3 tabanlı iki aşamalı düzen analizi ve paralel tanıma işlem hattıyla birleştiğinde, GLM-OCR farklı belge düzenlerinde sağlam ve yüksek kaliteli OCR performansı sunar.
Bu model, gerçek dünya senaryoları için özel olarak optimize edilmiştir. OmniDocBench V1.5'te 94.62 puanla genel sıralamada birinci olarak en son teknoloji performansını sergilerken, formül tanıma, tablo tanıma ve bilgi çıkarma gibi önemli belge anlama kıyaslamalarında da üstün sonuçlar elde etmektedir. Sadece 0.9 milyar parametreye sahip olması, vLLM, SGLang ve Ollama gibi araçlarla dağıtımını destekleyerek çıkarım gecikmesini ve bilgi işlem maliyetini önemli ölçüde azaltır. Bu sayede yüksek eşzamanlılık gerektiren hizmetler ve uç cihaz dağıtımları için idealdir. Tamamen açık kaynaklı olması, kapsamlı bir SDK ve çıkarım araç zinciri ile birlikte gelmesi, kolay kurulum, tek satırlık çağrı ve mevcut üretim işlem hatlarına sorunsuz entegrasyon imkanı sunar. Kullanıcılar ister barındırılan bulut API'sini kullanarak GPU'ya ihtiyaç duymadan isterse modeli yerel olarak dağıtarak tam kontrolle GLM-OCR'ı kullanabilirler.
GLM-OCR, karmaşık belge anlama alanında en yüksek performansı düşük maliyetli ve kolay entegre edilebilir bir çözümle sunarak yapay zeka tabanlı belge işleme süreçlerini dönüştürme potansiyeline sahiptir.