Yapay zeka araştırmalarında büyük veri setlerinin sıkıştırılması konusunda önemli bir ilerleme kaydedildi. Araştırmacılar, veri seti damıtma işlemlerinde karşılaşılan kritik depolama problemine yenilikçi bir çözüm getirdi.
Mevcut büyük ölçekli veri seti sıkıştırma yöntemlerinde, sıkıştırılmış görüntülerin yanında saklanması gereken yardımcı etiketler ciddi bir depolama sorunu yaratıyordu. ImageNet-1K veri setinde bu etiketler sıkıştırılmış görüntülerden 30-40 kat, ImageNet-21K'da ise 200 kat daha fazla yer kaplıyordu.
Araştırmacılar, bu sorunun iki temel nedeni olduğunu belirledi: ilki, sentetik görüntülerdeki yetersiz çeşitlilik nedeniyle kapsamlı veri artırma işlemlerine ihtiyaç duyulması; ikincisi ise eğitim sırasında denetim sinyallerindeki sınırlı çeşitliliğin yüksek sıkıştırma oranlarında performans düşüşüne yol açması.
Geliştirilen LPQLD (Label Pruning and Quantization for Large-scale Distillation) yöntemi, bu sorunları ele almak için çok katmanlı bir yaklaşım benimsiyor. Görüntü çeşitliliğini artırmak için sınıf bazlı gruplama ve batch normalizasyon denetimi kullanılırken, denetim çeşitliliği için dinamik bilgi yeniden kullanımıyla etiket budaması ve kalibrasyon tabanlı etiket kuantizasyonu teknikleri uygulanıyor.
Bu yenilik, özellikle kaynak kısıtlı ortamlarda çalışan araştırmacılar ve geliştiriciler için büyük önem taşıyor. Daha az depolama alanıyla büyük veri setleriyle çalışma imkanı, yapay zeka modellerinin geliştirilmesini demokratikleştiriyor.