Yapay zeka araştırmacıları, büyük dil modellerinin nasıl çalıştığını anlayabilmek için ATLAS adlı yenilikçi bir analiz sistemi geliştirdi. Bu sistem, AI modellerinin eğitim sonrası değişimlerini geometrik bir bakış açısıyla inceliyor.
ATLAS yaklaşımı, geleneksel yöntemlerden farklı olarak tek bir davranış, nöron veya vektöre odaklanmak yerine, 'yerel harita' adı verilen daha geniş yapıları analiz ediyor. Bu haritalar, modelin gizli katmanlarındaki karmaşık ilişkileri ve değişimleri takip edebiliyor.
Gemma modeli üzerinde yapılan testlerde, sistem 320 incelenen kaynak satırından 310'unu ve tüm skor değişim satırlarını yakalayabildi. Araştırmacılar daha sonra bu bulguları Phi modeline aktararak, sistemin farklı AI mimarileri arasında çalışabildiğini kanıtladı.
Çalışmanın dikkat çeken yanı, fare beynindeki frontal korteks verilerine de uygulanabilmesidir. Bu, AI ve biyolojik sistemler arasındaki benzerlikler konusunda yeni perspektifler sunuyor.
Bu araştırma, yapay zeka sistemlerinin iç dinamiklerini anlamamız ve gelecekte daha kontrol edilebilir AI modelleri geliştirebilmemiz açısından önemli bir adım teşkil ediyor.