Yapay zeka alanında yeni bir araştırma, dil modellerinin yeteneklerini değerlendirme biçimimizi kökten değiştirebilecek bir yaklaşım sunuyor. Stanford Üniversitesi araştırmacılarının geliştirdiği bu yöntem, modellerin kendi iç dünyalarından becerilerini keşfetmeyi hedefliyor.
Geleneksel yaklaşımlar, yapay zeka modellerinin yeteneklerini anlamak için insan yapımı sınıflandırmalar, metin açıklamaları veya manuel değerlendirme süreçleri kullanıyordu. Ancak bu dış müdahaleler, modelin gerçekte nasıl çalıştığını tam olarak yansıtmayabilir.
Yeni 'model-doğal' yaklaşım, tamamen farklı bir perspektif sunuyor. Araştırmacılar, modelin davranışına müdahale etmek amaçlandığında, beceri karakterizasyonunun dış ontolojilerle değil, modelin kendi temsilleriyle temellendirilmesi gerektiğini savunuyor.
Araştırma ekibi, sekans düzeyindeki aktivasyonlardan kompakt bir ortogonal temel kurtararak bu görüşü hayata geçirdi. Elde edilen temel, semantik açıdan yorumlanabilir ancak önceden tanımlanmış herhangi bir insan ontolojisine karşılık gelmek zorunda değil. Bunun yerine, modelin kendi etrafında organize olduğu davranışsal değişkenlik eksenlerini yakalıyor.
Bu yenilikçi yaklaşım, yapay zeka eğitiminde veri seçimi ve model davranışlarının ince ayarlanması gibi pratik uygulamalarda büyük potansiyel taşıyor.