Eksik Verilerde Sınıflandırma Sorunu için Yeni Kümeleme Algoritması

Araştırmacılar, makine öğrenmesinde karşılaşılan önemli bir soruna çözüm geliştirdi. PU sınıflandırma olarak bilinen bu problemde, sadece pozitif örnekler ve etiketlenmemiş veriler bulunuyor. Yeni algoritma, 2-ortalama kümeleme tekniğini kullanarak verileri temizliyor ve ardından lojistik regresyon uygulayarak sınıflandırma yapıyor. Geleneksel yöntemlerin aksine, bu yaklaşım SCAR koşulunun ihlal edildiği durumlarda bile etkili çalışabiliyor. 11 gerçek veri seti ve sentetik veriler üzerinde yapılan testler, algoritmanın başarılı olduğunu gösterdi.

Makine öğrenmesi alanında karşılaşılan önemli zorluklardan biri, sadece pozitif örneklerin ve etiketlenmemiş verilerin bulunduğu PU (Positive-Unlabeled) sınıflandırma problemidir. Araştırmacılar bu soruna yönelik yeni bir çözüm geliştirdi.

Geliştirilen algoritma iki aşamalı bir yaklaşım benimsiyor. İlk adımda, 2-ortalama kümeleme tekniği kullanılarak veriler temizleniyor ve etiketler elde ediliyor. İkinci aşamada ise temizlenmiş veriler üzerinde lojistik regresyon uygulanıyor. Bu süreçte, temizleme algoritmasından gelen pozitif etiketler, ek gerçek pozitif gözlemlerle birleştirilerek kullanılıyor.

Yöntemin en önemli avantajı, geleneksel yaklaşımların dayandığı SCAR (Selected Completely at Random) koşulunun ihlal edildiği durumlarda bile etkili çalışabilmesidir. Bu durum, gerçek dünya uygulamalarında sıkça karşılaşılan bir problem olduğu için önemli bir gelişme sayılıyor.

Algoritmanın performansı, makine öğrenmesi depolarından alınan 11 gerçek veri seti ve bir sentetik veri seti üzerinde test edildi. Sonuçlar, önerilen kümeleme algoritmasının SCAR koşulunun ihlal edildiği senaryolarda etkili olduğunu gösterdi. Ayrıca LassoJoint yönteminin SCAR koşulundaki değişikliklere karşı orta düzeyde dayanıklılık gösterdiği tespit edildi.

Eksik Verilerde Sınıflandırma Sorunu için Yeni Kümeleme Algoritması

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Sosyal medya seçim karşıtı reklamları oy verme davranışını etkiliyor

Çin'de 'Uzanıp Yatma' Akımı: Sosyal Direnişin Dilbilimsel Analizi

Adil Tasarlanan Eşleştirme Sistemleri Bile Eşitsiz Sonuçlar Üretebiliyor