Yapay zeka alanında tabloların anlaşılması konusunda önemli bir gelişme yaşandı. Araştırmacılar, görüntülerdeki tabloları kapsamlı şekilde analiz edebilen TableSeq adlı yeni bir model geliştirdi.
Bu yenilikçi sistem, geleneksel yöntemlerin aksine üç kritik görevi tek seferde yerine getiriyor: tablo yapısını tanıma, içeriği okuma ve hücrelerin konumlarını belirleme. Model, bu karmaşık işlemi tek bir dizi üretim problemi olarak formüle ediyor ve HTML etiketleri, hücre metinleri ile koordinat bilgilerini iç içe geçmiş tek bir akış halinde üretiyor.
TableSeq'in en büyük avantajı, harici OCR yazılımlarına, yardımcı kod çözücülere veya karmaşık çok aşamalı işleme süreçlerine ihtiyaç duymaması. Bu tasarım, tablonun mantıksal yapısını, metin içeriğini ve hücre geometrisini tek bir otoregresif dizi içinde hizalayarak bütünlük sağlıyor.
Teknik açıdan model, hafif yüksek çözünürlüklü FCN-H16 kodlayıcısı, minimal yapı-öncelikli başlık ve tek katmanlı transformer kodlayıcısını birleştiriyor. Bu kompakt mimari, zorlu düzenlerde bile etkili kalırken basitliğini koruyor.
Standart kıyaslama testlerinde TableSeq, rekabetçi ve son teknoloji sonuçlara ulaştı. PubTabNet veri setinde %95.23 TEDS ve %96.83 S-TEDS skorları elde eden model, mimari sadeliğini korurken yüksek performans sergiledi.