Teknoloji & Yapay Zeka

Büyük Veri Dizilerinde Ortak Kalıpları Bulan Yeni Algoritma Geliştirildi

Araştırmacılar, binlerce karakter içeren uzun veri dizilerinde ortak kalıpları tespit edebilen yenilikçi bir algoritma geliştirdi. MLCS (Çoklu En Uzun Ortak Alt Dizi) madenciliği olarak bilinen bu teknik, genetik, metin analizi ve veri madenciliği alanlarında kritik öneme sahip. Mevcut yöntemler 1000'den fazla karakterlik dizilerle başa çıkamıyordu, bu da büyük veri analizi için ciddi bir engel oluşturuyordu. Yeni KP-MLCS algoritması, 'anahtar nokta' yaklaşımını kullanarak 10 bin karaktere kadar olan büyük dizilerde bile ortak kalıpları başarıyla tespit edebiliyor. Sistem aynı zamanda bulunan kalıpları görsel olarak gösterebilen ve gerçek zamanlı analiz yapabilen çevrimiçi bir araç olarak sunuluyor. Bu gelişme, genomik verilerden sosyal medya analizine kadar pek çok alanda büyük veri işleme kapasitesini önemli ölçüde artıracak.

Bilim insanları, büyük veri dizilerinde ortak kalıpları tespit etme konusunda önemli bir atılım gerçekleştirdi. Geliştirilen yeni algoritma, binlerce hatta on binlerce karakter içeren uzun veri dizilerinde bile ortak alt dizileri başarıyla bulabiliyor.

MLCS (Multiple Longest Common Subsequences - Çoklu En Uzun Ortak Alt Dizi) madenciliği, üç veya daha fazla dizi arasındaki en uzun ortak kalıpları bulma işlemidir. Bu teknik, DNA analizinden metin madenciliğine, sosyal medya verilerinden log analizine kadar pek çok alanda kullanılıyor. Ancak şimdiye kadar mevcut algoritmalar, 1000 karakterden uzun dizilerle başa çıkamıyordu.

Araştırmacılar tarafından geliştirilen KP-MLCS (Key Point-MLCS) algoritması, 'anahtar nokta' yaklaşımını kullanarak bu sınırları aşıyor. Sistem, 10 bin karaktere kadar olan büyük dizilerde bile ortak kalıpları etkili şekilde tespit edebiliyor.

Algoritmanın en dikkat çekici özelliklerinden biri, bulunan tüm ortak dizileri kompakt bir şekilde temsil edebilmesi ve aralarındaki ortak kalıpları hızlıca ortaya çıkarabilmesi. Ayrıca gerçek zamanlı görsel sunum özelliği sayesinde, kullanıcılar analiz sonuçlarını anında görsel olarak inceleyebiliyor.

Bu gelişme, genomik araştırmalardan büyük veri analitiğine kadar pek çok alanda önemli ilerlemeler sağlayacak. Özellikle günümüzde artan veri boyutlarıyla başa çıkabilme kapasitesi, bilim dünyasında yeni keşiflere kapı açabilir.

Özgün Kaynak
arXiv (CS + AI)
OVT-MLCS: An Online Visual Tool for MLCS Mining from Long or Big Sequences
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.