Makine öğrenmesi alanında karşılaşılan önemli zorluklardan biri, sadece pozitif örneklerin ve etiketlenmemiş verilerin bulunduğu PU (Positive-Unlabeled) sınıflandırma problemidir. Araştırmacılar bu soruna yönelik yeni bir çözüm geliştirdi.
Geliştirilen algoritma iki aşamalı bir yaklaşım benimsiyor. İlk adımda, 2-ortalama kümeleme tekniği kullanılarak veriler temizleniyor ve etiketler elde ediliyor. İkinci aşamada ise temizlenmiş veriler üzerinde lojistik regresyon uygulanıyor. Bu süreçte, temizleme algoritmasından gelen pozitif etiketler, ek gerçek pozitif gözlemlerle birleştirilerek kullanılıyor.
Yöntemin en önemli avantajı, geleneksel yaklaşımların dayandığı SCAR (Selected Completely at Random) koşulunun ihlal edildiği durumlarda bile etkili çalışabilmesidir. Bu durum, gerçek dünya uygulamalarında sıkça karşılaşılan bir problem olduğu için önemli bir gelişme sayılıyor.
Algoritmanın performansı, makine öğrenmesi depolarından alınan 11 gerçek veri seti ve bir sentetik veri seti üzerinde test edildi. Sonuçlar, önerilen kümeleme algoritmasının SCAR koşulunun ihlal edildiği senaryolarda etkili olduğunu gösterdi. Ayrıca LassoJoint yönteminin SCAR koşulundaki değişikliklere karşı orta düzeyde dayanıklılık gösterdiği tespit edildi.