Stanford Üniversitesi araştırmacıları, yapay zeka sistemlerinin farklı gruplar arasında adil ve tutarlı tahminler yapabilme kabiliyetini değerlendiren yeni bir ölçüm yöntemi geliştirdi. Çoklu kalibrasyon (multi-calibration) olarak bilinen bu kavram, AI modellerinin çeşitli alt popülasyonlarda aynı anda doğru sonuçlar verebilme yeteneğini ifade ediyor.
Araştırmada ele alınan temel sorun, bir yapay zeka modelinin genel olarak başarılı olsa bile, belirli demografik gruplar veya alt kategorilerde farklı performans sergileyebilmesidir. Örneğin, bir tıbbi teşhis sistemi genel nüfusta %90 doğrulukla çalışırken, belirli yaş gruplarında bu oran ciddi şekilde düşebilir.
Geleneksel kalibrasyon ölçüm yöntemleri, veriyi kategorilere ayırma (binning) veya kernel yoğunluk tahmini gibi teknikler kullanıyor. Ancak bu yaklaşımların bilinen dezavantajları bulunuyor. Yeni geliştirilen metrik, klasik Kuiper istatistiğine dayandığı için bu sorunları aşmayı hedefliyor.
Önerilen yöntemin en önemli özelliği, farklı alt grupların katkılarını sinyal-gürültü oranlarına göre ağırlıklandırması. Bu sayede, veri kalitesi yüksek olan grupların ölçümde daha fazla etkili olması sağlanıyor. Araştırmacılar, bu yaklaşımın özellikle adalet, finans ve sağlık alanlarında kullanılan AI sistemlerinin güvenilirliğini artırmak için kritik öneme sahip olduğunu vurguluyor.