Yapay zeka sistemlerinin gerçek dünyada güvenilir şekilde çalışabilmesi için, eğitim sırasında karşılaştıkları durumlardan farklı koşullara da uyum sağlayabilmeleri gerekir. Ancak bu 'dağılım dışı genelleme' yeteneğinin ölçülmesi, mevcut test ortamlarının birçok değişkeni aynı anda değiştirmesi nedeniyle zorlaşıyor.
Yeni geliştirilen Tape benchmark'ı bu soruna çözüm getiriyor. Hücresel otomata sistemlerine dayanan bu test ortamı, sadece altta yatan kuralları değiştirirken gözlem ve eylem arayüzünü sabit tutuyor. Bu sayede algoritmaların spesifik olarak kural değişikliklerine karşı dayanıklılığı izole edilmiş şekilde ölçülebiliyor.
Test sonuçları dikkat çekici bulgular ortaya koyuyor. Farklı algoritma ailelerinde tutarlı bir performans düşüşü gözlenirken, özellikle kararlı, periyodik ve kaotik kurallar arasında belirgin farklılıklar tespit ediliyor. En çarpıcı bulgu ise, kasıtlı olarak basit tutulan tek boyutlu deterministik ortamda bile algoritmaların kırılganlık göstermesi.
Araştırma, 20 farklı tohum değeriyle tekrarlanmış deneyler ve bootstrap belirsizlik raporlaması gibi sıkı metodolojiler kullanıyor. Referans noktası olarak gerçek dinamikleri bilen rastgele atış yönteminin başarı oranı yüzde 18.7 olarak belirleniyor.
Bu bulgular, mevcut pekiştirmeli öğrenme algoritmalarının çevresel değişikliklere karşı düşünülenden daha hassas olduğunu gösteriyor ve yapay zeka güvenilirliği alanında önemli sorular ortaya koyuyor.