Teknoloji & Yapay Zeka

Yapay Zeka El Yazısı Okuma Konusunda Yeni Yöntemlerle Başarı Elde Ediyor

Araştırmacılar, çok sayfalı el yazısı belgelerin transkripsiyonunda yapay zekanın performansını artırmak için yeni yöntemler geliştirdi. Geleneksel yaklaşımlar her sayfayı ayrı ayrı işlerken, yeni sistem sayfalar arasındaki bağlamsal ilişkiyi ve yazım stilindeki benzerliği de değerlendiriyor. Çalışma, optik karakter tanıma (OCR) teknolojisi ile çok modlu büyük dil modellerini bir araya getiren hibrit yaklaşımları test ediyor. El yazısı tanıma teknolojisi halen zorlu bir alan olmaya devam ederken, bu yeni yaklaşımlar özellikle etiketli veri gerektirmeyen sıfır-atış yöntemleriyle öne çıkıyor. Araştırma, yapay zekanın metin ve görsel verileri birlikte işleyebilme kapasitesini kullanarak, geleneksel yöntemlerin aksine belgelerin bütünsel yapısını anlamlandırmaya odaklanıyor.

Yapay zeka alanında el yazısı tanıma teknolojisi, araştırmacıların geliştirdiği yeni yaklaşımlarla önemli bir ilerleme kaydediyor. Geleneksel sistemler genellikle her sayfayı bağımsız olarak işlerken, yeni metodoloji belgelerin çok sayfalı yapısını ve sayfalar arası bağlantıları göz önünde bulunduruyor.

El yazısı metinlerin dijitalleştirilmesi, tarihi belgelerden günlük notlara kadar geniş bir uygulama alanına sahip olmakla birlikte teknik açıdan hâlâ zorluklar barındırıyor. Mevcut sistemler ya büyük miktarda etiketli veri gerektiren özel eğitim süreçlerine ya da optik karakter tanıma motorları gibi hazır araçlara dayanıyor.

Yeni araştırmada, çok modlu büyük dil modelleri (MLLM) ile OCR teknolojisinin birleştirilerek hibrit bir yaklaşım geliştirildi. Bu sistem, hem görsel hem de metin verilerini aynı anda işleyebilme kapasitesini kullanarak, belgelerin anlamsal içeriği ve yazım stilindeki tutarlılığı değerlendiriyor.

Araştırmanın öne çıkan yönü, geleneksel sayfa düzeyindeki işlemden farklı olarak, belgenin tamamını bütünsel bir yaklaşımla ele alması. Bu sayede sistemin, bir sayfada belirsiz kalan kelimeleri diğer sayfalardaki bağlamdan yararlanarak daha doğru tanımlayabilmesi hedefleniyor.

Özgün Kaynak
arXiv (CS + AI)
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.