Büyük Dil Modelleri için Yeni Veri İzleme Sistemi Geliştirdi

Araştırmacılar, ChatGPT gibi büyük dil modellerinde hangi eğitim verilerinin sonuçları etkilediğini tespit eden yeni bir sistem geliştirdi. RISE adı verilen bu sistem, insan beyninin karar verme sürecinden ilham alıyor. Geleneksel yöntemlerin aksine, modelin tamamını taramak yerine sadece çıktı katmanındaki kritik noktalara odaklanarak çalışıyor. Bu yaklaşım, veri depolama ihtiyacını 11 kata kadar azaltırken hesaplama süresini 7 kata kadar hızlandırıyor. Sistem, veri telif hakları ve model şeffaflığı konularında önemli ilerlemeler sağlayabilir.

Yapay zeka alanında büyük dil modellerinin hangi eğitim verilerinden etkilendiğini anlamak, hem bilimsel açıdan hem de yasal nedenlerle kritik önem taşıyor. Araştırmacılar bu soruna çözüm olarak RISE (Readout Influence Sketching Estimator) adlı yenilikçi bir sistem geliştirdi.

RISE sistemi, insan beyninin karar verme mekanizmasından ilham alıyor. İnsan beyni karar verirken tüm hafıza yollarını yeniden oynatmak yerine, ilgili anıların odaklanmış bir okumasına dayanır. Benzer şekilde, RISE de modelin tamamındaki gradyanları hesaplamak ve indekslemek yerine, etki sinyallerinin yoğunlaştığı çıktı katmanındaki etki odaklarına konsantre oluyor.

Sistem, iki kanallı bir temsil kullanıyor: sözcüksel artık kanalı (RH) ve anlamsal öngörü hatası kanalı (GH). CountSketch projeksiyonları sayesinde güçlü sıkıştırma elde ederken doğru atıflamayı koruyor.

OLMo ve Pythia model ailelerinde yapılan testlerde, RISE indeks depolamayı 11 kata kadar azaltırken hesaplama süresini 7 kata kadar hızlandırdı. Bu gelişme, veri telif hakları ve AI şeffaflığı konularında önemli adımlar atılmasını sağlayabilir.