Yapay zeka modelleri artık test sırasında daha akıllıca uyum sağlayacak

Araştırmacılar, yapay zeka modellerinin yeni verilerle karşılaştığında kendini uyarlama yeteneğini geliştiren DualTTA adlı yeni bir yöntem geliştirdi. Geleneksel test-zamanı uyum yöntemleri sadece güvenilir tahminlere odaklanırken, DualTTA hem doğru hem de yanlış tahminleri stratejik olarak kullanıyor. Bu yaklaşım, modelin karşılaştığı test verilerini iki gruba ayırıyor: güvenilir tahminlerde belirsizliği azaltarak doğru kararları pekiştiriyor, hatalı tahminlerde ise belirsizliği artırarak aşırı güvenli yanlış davranışları bastırıyor. Yöntem, görüntülerin anlamını koruyan ve değiştiren dönüşümler altında tahmin kararlılığını ölçen yeni bir güvenilirlik kriteri kullanıyor.

Yapay zeka modellerinin gerçek dünya koşullarında karşılaştığı en büyük zorluklardan biri, eğitim sırasında gördüklerinden farklı veri dağılımlarıyla başa çıkmaktır. Araştırmacılar bu soruna çözüm olarak DualTTA adını verdikleri yeni bir yaklaşım geliştirdi.

Mevcut test-zamanı uyum yöntemleri genellikle sadece düşük entropi değerine sahip, yani güvenilir görünen tahminleri kullanır. Bu yaklaşım, test verilerindeki bilgilerin büyük bir kısmını değerlendirmeden bırakır. DualTTA ise daha geniş bir veri yelpazesinden yararlanarak performansı artırmayı hedefliyor.

Yöntemin temelinde akıllıca bir gruplama stratejisi yatıyor. Model tahminleri iki kategoriye ayrılıyor: birinci grupta modelin tahminlerinin altta yatan anlamsal içerikle tutarlı olma ihtimalinin yüksek olduğu örnekler, ikinci grupta ise tahminlerin yanlış olma olasılığının fazla olduğu örnekler yer alıyor.

İlk grup için sistem, tahmin entropisini minimize ederek güvenilir kararları güçlendiriyor. İkinci grup için ise tam tersini yapıyor: entropiyi maksimize ederek aşırı güvenli hataları bastırıyor ve yanıltıcı davranış kalıplarını unutturmaya çalışıyor.

En önemli yenilik, bu grupları nasıl belirlendiğinde saklı. Araştırmacılar, görüntünün anlamını koruyan ve değiştiren dönüşümler altında tahmin kararlılığını ölçen yeni bir güvenilirlik kriteri geliştirdi. Bu sayede sistem, hangi tahminlerin gerçekten güvenilir olduğunu daha doğru bir şekilde tespit edebiliyor.