Yapay zeka dünyasında büyük dil modellerinin yeni bir türü olan difüzyon dil modelleri (DLM), umut verici bir yaklaşım olarak öne çıkıyor. Ancak bu modellerin tahmin edilemeyen davranış sergilemeleri konusu henüz tam olarak anlaşılamamıştı.
Araştırmacılar, mevcut değerlendirme sistemlerinin kritik bir eksikliği olduğunu keşfetti. Geleneksel yöntemler, modellerin performansını ölçerken veri setindeki binlerce örneğin ortalamasını alıyor. Bu yaklaşım, modellerin aynı soruya farklı zamanlarda verdikleri farklı yanıtları maskeliyor.
Çalışmanın en çarpıcı bulgusu şu: Genel performans puanları benzer olan iki model konfigürasyonu, bireysel sorularda tamamen farklı davranışlar sergileyebiliyor. Bu durumda, toplam başarı oranı aynı olsa bile, hangi soruları yanlış yanıtladıkları ve hata kalıpları büyük ölçüde değişiklik gösteriyor.
Araştırma ekibi, bu sorunu çözmek için yeni bir değerlendirme metodu geliştirdi. Bu yöntem, her bir örneği ayrı ayrı inceleyerek modellerin ne kadar tutarsız olduğunu daha detaylı şekilde ölçebiliyor. Böylece geliştiriciler, modellerindeki kararsızlık kaynaklarını daha iyi anlayabilecek ve daha güvenilir AI sistemleri geliştirebilecek.