Yapay zeka alanında el yazısı tanıma teknolojisi, araştırmacıların geliştirdiği yeni yaklaşımlarla önemli bir ilerleme kaydediyor. Geleneksel sistemler genellikle her sayfayı bağımsız olarak işlerken, yeni metodoloji belgelerin çok sayfalı yapısını ve sayfalar arası bağlantıları göz önünde bulunduruyor.
El yazısı metinlerin dijitalleştirilmesi, tarihi belgelerden günlük notlara kadar geniş bir uygulama alanına sahip olmakla birlikte teknik açıdan hâlâ zorluklar barındırıyor. Mevcut sistemler ya büyük miktarda etiketli veri gerektiren özel eğitim süreçlerine ya da optik karakter tanıma motorları gibi hazır araçlara dayanıyor.
Yeni araştırmada, çok modlu büyük dil modelleri (MLLM) ile OCR teknolojisinin birleştirilerek hibrit bir yaklaşım geliştirildi. Bu sistem, hem görsel hem de metin verilerini aynı anda işleyebilme kapasitesini kullanarak, belgelerin anlamsal içeriği ve yazım stilindeki tutarlılığı değerlendiriyor.
Araştırmanın öne çıkan yönü, geleneksel sayfa düzeyindeki işlemden farklı olarak, belgenin tamamını bütünsel bir yaklaşımla ele alması. Bu sayede sistemin, bir sayfada belirsiz kalan kelimeleri diğer sayfalardaki bağlamdan yararlanarak daha doğru tanımlayabilmesi hedefleniyor.