Yapay zeka modellerinin eğitimi için yüksek kaliteli veri setleri oluşturmak, hem zaman hem de maliyet açısından büyük zorluklar içeriyor. İnsan emeği gerektiren manuel etiketleme süreçleri, hataya açık olmasının yanı sıra önemli kaynaklar da tüketiyor.
Bu soruna çözüm arayan araştırmacılar, Automatic Dataset Construction (ADC) adını verdikleri yenilikçi bir metodoloji geliştirdi. Bu sistem, büyük dil modellerinin gücünden yararlanarak veri seti oluşturma sürecini neredeyse tamamen otomatikleştiriyor.
ADC'nin çalışma prensibi oldukça etkileyici. Sistem önce büyük dil modellerini kullanarak detaylı sınıf tasarımları yapıyor, ardından arama motorları aracılığıyla ilgili örnekleri toplamak için kod üretiyor. Bu yaklaşım, manuel etiketleme ihtiyacını minimize ederken veri üretim hızını önemli ölçüde artırıyor.
Araştırmacılar, sistemlerinin etkinliğini kanıtlamak için görüntü sınıflandırma alanında büyük çaplı bir deneme gerçekleştirdi. Clothing-ADC adını verdikleri veri setinde, 12 ana kategori altında 12.000 ince taneli alt sınıfı kapsayan 1 milyondan fazla görüntü başarıyla toplandı.
Bu gelişme, özellikle kişiselleştirilmiş yapay zeka uygulamalarının geliştirilmesi ve uzmanlaşmış modellerin ince ayarlanması açısından büyük önem taşıyor.