PILOT: Tek Model ile Belge Okuma Devrimini Başlatan Yapay Zeka Sistemi

Araştırmacılar, geleneksel OCR (optik karakter tanıma) sistemlerinin karmaşık yapısını basitleştiren yeni bir yapay zeka modeli geliştirdi. PILOT adlı bu 155 milyon parametreli sistem, el yazısı ve basılı metinleri okurken aynı zamanda metinlerin belgede nerede bulunduğunu da belirleyebiliyor. Klasik OCR sistemleri metni tespit etme, bölümlendirme ve tanıma aşamalarını ayrı ayrı gerçekleştirirken, PILOT tüm bu işlemleri tek seferde yapabiliyor. Model, sayfa görüntüsünü analiz ederek hem metin içeriğini hem de koordinat bilgilerini birlikte üretebiliyor. Bu yaklaşım, belirli bölgelerdeki metinleri okuma veya istenilen kelimeleri bulma gibi etkileşimli sorgulamalara da olanak sağlıyor. Sistem, üç aşamalı bir eğitim programıyla geliştirildi ve belge analizi alanında önemli bir ilerleme sunuyor.

Stanford Üniversitesi araştırmacıları, belge okuma teknolojisinde önemli bir yenilik getiren PILOT sistemini geliştirdi. Bu yapay zeka modeli, geleneksel OCR sistemlerinin karmaşık yapısını tek bir kompakt modelde birleştiriyor.

Klasik OCR sistemleri belge okumayı tespit, bölümlendirme ve tanıma olmak üzere üç ayrı aşamada gerçekleştirir. Bu yaklaşım, konum hatalarına karşı hassasiyet yaratır ve etkileşimli sorgulama özelliklerini geliştirmeyi zorlaştırır. PILOT ise tüm bu süreçleri birleşik bir sekans üretim problemi olarak ele alıyor.

155 milyon parametreye sahip PILOT, hafif bir CNN ağı ile sayfayı kodluyor ve Transformer dekodörü kullanarak hem alt-kelime hem de nicelleştirilmiş koordinat bilgilerini 10 piksellik bir ızgara üzerinde otomatik olarak üretiyor. Bu sayede tam sayfa OCR, bölge koşullu okuma ve metin arama özelliklerini aynı mimari içinde sunabiliyor.

Sistemin eğitimi üç aşamalı bir müfredat ile gerçekleştiriliyor: düz transkripsiyon, metin-kutu birleşik üretimi ve son olarak komut kontrollü çıkarım. Bu yaklaşım, hem el yazısı hem de basılı belgelerde başarılı sonuçlar veriyor ve belge analizi alanında yeni olanaklar sunuyor.