Faturalardan, gümrük evraklarından veya satın alma siparişlerinden ölçekli biçimde temiz veri çıkarmayı denediyseniz, asıl sorunu zaten biliyorsunuz. Belgeler dağınıktır, her gönderen farklı bir format kullanır ve tek bir yanlış alanın bedeli bir denetim, geciken bir sevkiyat ya da yanlış hesaba yapılan bir ödeme olabilir. Soru şu: bu belgeleri okumak için hangi teknolojiye güveniyorsunuz? Klasik optik karakter tanıma (OCR), tek bir büyük dil modeli mi, yoksa birkaç modeli doğrulamayla birleştiren bir yapı mı?
Bu yazı, OCR ile görsel-dil modellerinin gerçekte nasıl farklılaştığını, her birinin nerede kırıldığını ve Documind’in neden tek bir yaklaşıma bel bağlamak yerine çok modelli bir hat çalıştırdığını ele alıyor.
OCR Aslında Ne Yapar
Optik karakter tanıma, pikselleri karakterlere çevirir. Bir görüntüyü tarar, harf ve rakamlara benzeyen şekilleri bulur ve metin döndürür. Yerleşim tabanlı belge araçları bu metnin üzerine oturur ve “sağ üstteki sayı fatura toplamıdır” gibi kararları şablonlar veya sabit koordinat bölgeleri kullanarak verir.
Bu yöntem, belgeler temiz, tutarlı ve önceden bilindiğinde harika çalışır. Gerçek hayat devreye girdiği anda dağılır:
- Yeni bir tedarikçi farklı bir düzende fatura gönderir ve şablon artık uymaz.
- Bir belge telefonla çekilmiş, eğik ve gölgeli bir fotoğraf olarak gelir, karakter tanıma bozulur.
- Bir alan yer değiştirir, bir tabloya sütun eklenir ya da OCR’nin matbu beklediği yerde el yazısı bir not belirir.
OCR okuduğu şeyi anlamaz. “Fatura adresi” ile “teslimat adresi” arasındaki farkı bilmez. Anlamı değil, konumu eşleştirir. Şablon tabanlı çıkarım projelerinin ömrünü çoğunlukla bakımda geçirmesinin nedeni budur: her yeni format yeni bir şablon, her istisna yeni bir destek talebidir.
Görsel-Dil Modelleri Neyi Farklı Yapar
Bir görsel-dil modeli (VLM) yalnızca karakterleri tanımaz. Tüm sayfanın yüksek boyutlu bir temsili üzerinde çalışır ve onu bir insanın yorumlayacağı gibi yorumlar. Bir metin bloğunun teslimat adresi olduğunu, sabit bir koordinatta göründüğü için değil, nerede durduğu ve çevresinde ne olduğu için anlayabilir. “Ara toplamı değil, ödenecek toplam tutarı döndür” gibi bir talimatı izleyebilir, çünkü belgeyi bağlam içinde anlar.
Bu fark pratikte önem taşır:
- Modelin daha önce hiç görmediği bir düzen yine de doğru çıkarılır, çünkü kırılacak bir şablon yoktur.
- El yazısı, kaşeler ve gürültülü taramalar çok daha akıcı biçimde işlenir.
- Bir örnek belge üzerine bölge çizmek yerine ne istediğinizi düz bir dille tarif edebilirsiniz.
Püf noktası, dil modellerinin halüsinasyon görebilmesidir. Tek bir model, denetlenmediğinde, ara sıra kendinden emin ama tamamen yanlış bir değer döndürür. Bir pazarlama özeti için bu can sıkıcıdır. Bir gümrük beyannamesi veya ödeme dosyası için kabul edilemezdir.
Neden Tek Model Yeterli Değil
“Sadece bir LLM kullan” yaklaşımının dürüst zayıflığı güvenilirliktir. Tek model size ikinci bir kaynak olmadan tek bir görüş verir. Hangi çıkarılan alanlara güveneceğinizi bilmenin yerleşik bir yolu yoktur, dolayısıyla ya her şeyi elle gözden geçirirsiniz (ki bu amacı boşa çıkarır) ya da sessiz hataları kabul edersiniz (ki bu daha kötüdür).
Alışılmış geçici çözümler özensizdir. Ekipler deneme yanılmayla bir güven eşiği belirler, kırılgan son işleme kuralları yazar ya da ilkini kontrol etmesi için ikinci bir araç ekler. Bunların her biri asıl sorunu çözmeden karmaşıklık katar: tek bir modelin uyuşmazlık sinyali yoktur.
Documind’in Çok Modelli Yaklaşımı
Documind güvenilirliği tek model sorunu olarak değil, bir hat sorunu olarak ele alır. Tek modele sorup umut etmek yerine, birden fazla görsel-dil ve büyük dil modelini çalıştırır, çıktılarını birleştirir, birbirleriyle çapraz doğrular ve her alanı puanlar.
Bu tasarım, tek bir modelin üretemeyeceği üç şey üretir:
- Bir uyuşmazlık sinyali. Modeller bir değerde anlaştığında güven yüksektir. Ayrıştıklarında, o alan gömülmek yerine yüzeye çıkarılır.
- Alan başına güven skoru. Genel bir eşik tahmin etmek zorunda değilsiniz. Hat tam olarak insan gerektiren alanları işaretler, böylece gözden geçirenler zamanı yalnızca önemli olan yerde harcar.
- Kaynak dayanağı. Çıkarılan her değer, belgede nerede göründüğüne dair bir referans taşır ve bu da çıktıyı denetlenebilir tutar.
Sessizce önemli bir fayda daha var: bu yaklaşım, altyapıdaki modeller geliştikçe daha iyi olur. Gelecek ay yayımlanan daha güçlü bir model sistemi bozmaz; uzlaşının kalitesini yükseltir. Hiçbir zaman tek bir sağlayıcının yol haritasına bağlı kalmazsınız.
Kullanım Senaryonuz İçin Nasıl Seçim Yapmalısınız
Karar vermenin basit bir yolu:
- Belgeleriniz son derece tek biçimliyse, hacmi düşükse ve hiç değişmiyorsa, şablonlu klasik OCR yeterli olabilir.
- Belgeleriniz gönderene göre değişiyorsa, kötü kalitede geliyorsa veya zamanla değişiyorsa, görsel-dil yaklaşımı sizi bitmeyen şablon bakımından kurtarır.
- Hatalar pahalıysa ve hangi alanlara güveneceğinizi bilmeniz gerekiyorsa, güven skoru ve insan denetimi içeren çok modelli bir hat, güvenle ölçeklenen tek yaklaşımdır.
Gerçek işletmelerin çoğu ikinci ve üçüncü kategoride yaşıyor. Şablonlu OCR’nin sessizce en pahalıya mal olduğu yer tam da burası, lisans ücretleri değil, istisna kuyrukları ve yeniden veri girişi yüzünden. Bu gizli maliyeti ayrıntılı olarak manuel doküman işlemenin gizli maliyeti yazısında ele aldık.
Documind Nerede Devreye Giriyor
Documind yukarıda anlatılan çok modelli yaklaşımın etrafında kurulmuştur. İstediğiniz alanları bir şema olarak, düz bir dille, bir kez tanımlarsınız ve Documind sonrasında gelen her belge için alımı, çıkarımı ve doğrulamayı üstlenir. Şu anda PDF, JPEG ve PNG dosyalarını okuyor, yapılandırılmış JSON döndürüyor ve düşük güvenli alanları inceleme için işaretliyor.
Kendi belgelerinizde görmek isterseniz, en faydalı sonraki adımlar şunlar:
- Finans ve borç hesapları için fatura veri çıkarımı.
- Lojistik ve gümrük müşavirliği için gümrük ve ticaret belgesi otomasyonu.
- Çıkarımı kendi hattınıza bağlamak isterseniz geliştirici API’si.
Ayrıca fiyatları görebilir veya demo talep edip mevcut aracınızı zorlayan belgeleri getirebilirsiniz.
Muhammet Aksoy
Documind, lojistik, gümrük ve finans ekipleri için yapay zeka destekli doküman veri çıkarımı geliştirir.