Yapay Zeka Veri Setlerinde Depolama Sorunu Çözüldü: 200 Kat Küçük Etiketler

Büyük ölçekli veri seti sıkıştırmasında karşılaşılan kritik bir sorun çözüme kavuştu. Araştırmacılar, yapay zeka modellerinin eğitiminde kullanılan veri setlerini sıkıştırırken, orijinal görüntülerden 30-40 kat daha büyük olan yardımcı etiketlerin gereksiz depolama alanı kapladığı problemini tespit etti. ImageNet-21K gibi büyük veri setlerinde bu oran 200 kata kadar çıkabiliyor. Yeni geliştirilen LPQLD yöntemi, görüntü çeşitliliğinin yetersizliği ve denetim sinyallerindeki tekdüzelik gibi temel sorunları ele alıyor. Sınıf bazlı gruplama ve batch normalizasyon teknikleriyle görüntü çeşitliliği artırılırken, dinamik bilgi yeniden kullanımı ile etiket budaması yapılıyor. Bu breakthrough, yapay zeka modellerinin daha az depolama alanıyla eğitilmesine olanak sağlayarak, özellikle kaynak kısıtlı ortamlarda büyük veri setleriyle çalışmayı mümkün kılıyor.

Yapay zeka araştırmalarında büyük veri setlerinin sıkıştırılması konusunda önemli bir ilerleme kaydedildi. Araştırmacılar, veri seti damıtma işlemlerinde karşılaşılan kritik depolama problemine yenilikçi bir çözüm getirdi.

Mevcut büyük ölçekli veri seti sıkıştırma yöntemlerinde, sıkıştırılmış görüntülerin yanında saklanması gereken yardımcı etiketler ciddi bir depolama sorunu yaratıyordu. ImageNet-1K veri setinde bu etiketler sıkıştırılmış görüntülerden 30-40 kat, ImageNet-21K'da ise 200 kat daha fazla yer kaplıyordu.

Araştırmacılar, bu sorunun iki temel nedeni olduğunu belirledi: ilki, sentetik görüntülerdeki yetersiz çeşitlilik nedeniyle kapsamlı veri artırma işlemlerine ihtiyaç duyulması; ikincisi ise eğitim sırasında denetim sinyallerindeki sınırlı çeşitliliğin yüksek sıkıştırma oranlarında performans düşüşüne yol açması.

Geliştirilen LPQLD (Label Pruning and Quantization for Large-scale Distillation) yöntemi, bu sorunları ele almak için çok katmanlı bir yaklaşım benimsiyor. Görüntü çeşitliliğini artırmak için sınıf bazlı gruplama ve batch normalizasyon denetimi kullanılırken, denetim çeşitliliği için dinamik bilgi yeniden kullanımıyla etiket budaması ve kalibrasyon tabanlı etiket kuantizasyonu teknikleri uygulanıyor.

Bu yenilik, özellikle kaynak kısıtlı ortamlarda çalışan araştırmacılar ve geliştiriciler için büyük önem taşıyor. Daha az depolama alanıyla büyük veri setleriyle çalışma imkanı, yapay zeka modellerinin geliştirilmesini demokratikleştiriyor.