"OCR" araması — BilimKapsül

...

Arama Sonuçları

7 haber

Teknoloji & Yapay Zeka

Yapay Zeka Belge Anlama Konusunda Yeni Boyut: Çok Modlu RAG Teknolojisi

Yapay zeka sistemlerinin belgeleri anlamada karşılaştığı temel zorluklar için yeni bir çözüm önerisi geldi. Geleneksel OCR tabanlı sistemler yapısal detayları kaybederken, çok modlu dil modelleri de bağlam modelleme konusunda yetersiz kalıyor. Araştırmacılar, metin, tablo, grafik ve sayfa düzenini bir arada değerlendirebilen 'Çok Modlu Retrieval-Augmented Generation' (RAG) yaklaşımını geliştirdi. Bu teknoloji, finansal analiz, bilimsel araştırma ve belge işleme alanlarında devrim yaratma potansiyeli taşıyor. Sistemin tüm veri türlerini holістік bir şekilde işleyebilme kabiliyeti, belge zekası alanında yeni ufuklar açıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka El Yazısı Okuma Konusunda Yeni Yöntemlerle Başarı Elde Ediyor

Araştırmacılar, çok sayfalı el yazısı belgelerin transkripsiyonunda yapay zekanın performansını artırmak için yeni yöntemler geliştirdi. Geleneksel yaklaşımlar her sayfayı ayrı ayrı işlerken, yeni sistem sayfalar arasındaki bağlamsal ilişkiyi ve yazım stilindeki benzerliği de değerlendiriyor. Çalışma, optik karakter tanıma (OCR) teknolojisi ile çok modlu büyük dil modellerini bir araya getiren hibrit yaklaşımları test ediyor. El yazısı tanıma teknolojisi halen zorlu bir alan olmaya devam ederken, bu yeni yaklaşımlar özellikle etiketli veri gerektirmeyen sıfır-atış yöntemleriyle öne çıkıyor. Araştırma, yapay zekanın metin ve görsel verileri birlikte işleyebilme kapasitesini kullanarak, geleneksel yöntemlerin aksine belgelerin bütünsel yapısını anlamlandırmaya odaklanıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Artık Metinleri Komşularına Zarar Vermeden Düzenleyebiliyor

Yapay zeka destekli metin düzenleme teknolojilerinde önemli bir sorun keşfedildi: mevcut yöntemler bir metni düzenlerken çevresindeki diğer metinleri de istemeden değiştiriyor. Araştırmacılar 50 gerçek dünya senaryosunu inceleyerek, en gelişmiş AI modellerinin %94 oranında 'sızıntı' sorunu yaşadığını ortaya çıkardı. Bu sorunu çözmek için geliştirilen Edit Fidelity Field (EFF) teknolojisi, düzenleme yapılacak bölgeyi dört farklı zona ayırarak hassas kontrol sağlıyor. OCR teknolojisiyle tespit edilen metin bölgelerini kullanan sistem, hedef metni değiştirirken diğer alanları koruma altına alıyor. Bu yenilik, fotoğraflardaki tabelaları, kitap kapaklarını veya dijital içerikleri düzenlerken çok daha hassas sonuçlar elde edilmesini mağlıyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

PILOT: Tek Model ile Belge Okuma Devrimini Başlatan Yapay Zeka Sistemi

Araştırmacılar, geleneksel OCR (optik karakter tanıma) sistemlerinin karmaşık yapısını basitleştiren yeni bir yapay zeka modeli geliştirdi. PILOT adlı bu 155 milyon parametreli sistem, el yazısı ve basılı metinleri okurken aynı zamanda metinlerin belgede nerede bulunduğunu da belirleyebiliyor. Klasik OCR sistemleri metni tespit etme, bölümlendirme ve tanıma aşamalarını ayrı ayrı gerçekleştirirken, PILOT tüm bu işlemleri tek seferde yapabiliyor. Model, sayfa görüntüsünü analiz ederek hem metin içeriğini hem de koordinat bilgilerini birlikte üretebiliyor. Bu yaklaşım, belirli bölgelerdeki metinleri okuma veya istenilen kelimeleri bulma gibi etkileşimli sorgulamalara da olanak sağlıyor. Sistem, üç aşamalı bir eğitim programıyla geliştirildi ve belge analizi alanında önemli bir ilerleme sunuyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

TableSeq: Tabloları Tek Seferde Anlayan Yapay Zeka Modeli Geliştirildi

Araştırmacılar, görüntülerdeki tabloları tam anlamıyla çözümleyebilen yeni bir yapay zeka modeli geliştirdi. TableSeq adlı bu sistem, tablo yapısını anlama, metinleri okuma ve hücrelerin konumlarını belirleme işlemlerini tek bir süreçte gerçekleştiriyor. Geleneksel yöntemlerin aksine, model harici OCR yazılımlarına veya karmaşık çok aşamalı işlemlere ihtiyaç duymuyor. Sistem, HTML etiketleri, hücre metinleri ve koordinat bilgilerini tek bir akış halinde üretecek şekilde tasarlandı. Bu yaklaşım, tablonun mantıksal yapısı, içeriği ve geometrik düzenlenmesini aynı anda ele almasını sağlıyor. Hafif ama etkili mimarisi sayesinde zorlu tablo düzenlerinde bile başarılı sonuçlar veriyor. Standart test kıyaslamalarında rekabetçi ve en gelişmiş sonuçlara ulaşan model, mimari basitliğini korurken yüksek performans sergiliyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay zeka dilbilim testinin ciddi eksikleri ortaya çıkarıldı

Araştırmacılar, dilsel anlam değişimini tespit etmede kullanılan en etkili kıyaslama testlerinden SemEval-2020 Task 1'in temel sorunlarını analiz etti. Çalışma, testin kelimelerin anlam değişimini yalnızca ayrı anlamların kazanılması, kaybedilmesi veya yeniden dağıtılması olarak ele aldığını gösteriyor. Bu yaklaşım, dilin doğasında var olan kademeli, yapısal ve bağlamsal değişimleri yakalayamıyor. Ayrıca veri kalitesi incelemesinde OCR hataları, bozuk karakterler, kesik cümleler ve tutarsız dilbilgisel etiketleme gibi ciddi teknik problemler tespit edildi. Bu bulgular, yapay zeka sistemlerinin dil anlama kapasitelerini değerlendirmede kullanılan temel araçların ne kadar güvenilir olduğu sorusunu gündeme getiriyor.

arXiv (CS + AI) · 29 gün önce