TableSeq: Tabloları Tek Seferde Anlayan Yapay Zeka Modeli Geliştirildi

Araştırmacılar, görüntülerdeki tabloları tam anlamıyla çözümleyebilen yeni bir yapay zeka modeli geliştirdi. TableSeq adlı bu sistem, tablo yapısını anlama, metinleri okuma ve hücrelerin konumlarını belirleme işlemlerini tek bir süreçte gerçekleştiriyor. Geleneksel yöntemlerin aksine, model harici OCR yazılımlarına veya karmaşık çok aşamalı işlemlere ihtiyaç duymuyor. Sistem, HTML etiketleri, hücre metinleri ve koordinat bilgilerini tek bir akış halinde üretecek şekilde tasarlandı. Bu yaklaşım, tablonun mantıksal yapısı, içeriği ve geometrik düzenlenmesini aynı anda ele almasını sağlıyor. Hafif ama etkili mimarisi sayesinde zorlu tablo düzenlerinde bile başarılı sonuçlar veriyor. Standart test kıyaslamalarında rekabetçi ve en gelişmiş sonuçlara ulaşan model, mimari basitliğini korurken yüksek performans sergiliyor.

Yapay zeka alanında tabloların anlaşılması konusunda önemli bir gelişme yaşandı. Araştırmacılar, görüntülerdeki tabloları kapsamlı şekilde analiz edebilen TableSeq adlı yeni bir model geliştirdi.

Bu yenilikçi sistem, geleneksel yöntemlerin aksine üç kritik görevi tek seferde yerine getiriyor: tablo yapısını tanıma, içeriği okuma ve hücrelerin konumlarını belirleme. Model, bu karmaşık işlemi tek bir dizi üretim problemi olarak formüle ediyor ve HTML etiketleri, hücre metinleri ile koordinat bilgilerini iç içe geçmiş tek bir akış halinde üretiyor.

TableSeq'in en büyük avantajı, harici OCR yazılımlarına, yardımcı kod çözücülere veya karmaşık çok aşamalı işleme süreçlerine ihtiyaç duymaması. Bu tasarım, tablonun mantıksal yapısını, metin içeriğini ve hücre geometrisini tek bir otoregresif dizi içinde hizalayarak bütünlük sağlıyor.

Teknik açıdan model, hafif yüksek çözünürlüklü FCN-H16 kodlayıcısı, minimal yapı-öncelikli başlık ve tek katmanlı transformer kodlayıcısını birleştiriyor. Bu kompakt mimari, zorlu düzenlerde bile etkili kalırken basitliğini koruyor.

Standart kıyaslama testlerinde TableSeq, rekabetçi ve son teknoloji sonuçlara ulaştı. PubTabNet veri setinde %95.23 TEDS ve %96.83 S-TEDS skorları elde eden model, mimari sadeliğini korurken yüksek performans sergiledi.