Stanford Üniversitesi araştırmacıları, belge okuma teknolojisinde önemli bir yenilik getiren PILOT sistemini geliştirdi. Bu yapay zeka modeli, geleneksel OCR sistemlerinin karmaşık yapısını tek bir kompakt modelde birleştiriyor.
Klasik OCR sistemleri belge okumayı tespit, bölümlendirme ve tanıma olmak üzere üç ayrı aşamada gerçekleştirir. Bu yaklaşım, konum hatalarına karşı hassasiyet yaratır ve etkileşimli sorgulama özelliklerini geliştirmeyi zorlaştırır. PILOT ise tüm bu süreçleri birleşik bir sekans üretim problemi olarak ele alıyor.
155 milyon parametreye sahip PILOT, hafif bir CNN ağı ile sayfayı kodluyor ve Transformer dekodörü kullanarak hem alt-kelime hem de nicelleştirilmiş koordinat bilgilerini 10 piksellik bir ızgara üzerinde otomatik olarak üretiyor. Bu sayede tam sayfa OCR, bölge koşullu okuma ve metin arama özelliklerini aynı mimari içinde sunabiliyor.
Sistemin eğitimi üç aşamalı bir müfredat ile gerçekleştiriliyor: düz transkripsiyon, metin-kutu birleşik üretimi ve son olarak komut kontrollü çıkarım. Bu yaklaşım, hem el yazısı hem de basılı belgelerde başarılı sonuçlar veriyor ve belge analizi alanında yeni olanaklar sunuyor.