Yapay zeka teknolojilerinin yaygınlaşmasıyla birlikte, büyük dil modellerinin (LLM) toplumsal önyargı ve adaletsizlik risklerini değerlendirmek kritik bir ihtiyaç haline geldi. Bu alanda çalışan araştırmacılar, mevcut değerlendirme yöntemlerinin sistematik rehberlik eksikliğini gidermek için kapsamlı bir çerçeve geliştirdi.

Yeni geliştirilen karar çerçevesi, LLM kullanım durumlarını model ve istem popülasyonu karakteristikleri temelinde kategorize ediyor. Sistem, görev türü, istemlerin korumalı özellik belirtimleri içerip içermediği ve paydaş öncelikleri gibi faktörlere dayalı olarak ilgili önyargı ve adalet metriklerini belirleme imkanı sunuyor.

Çerçeve dört ana risk alanını ele alıyor: toksiklik, stereotipleme, karşıt-olgusal adaletsizlik ve tahsis zararları. Araştırmacılar ayrıca stereotin sınıflandırıcıları ve metin benzerlik ölçümlerinin karşıt-olgusal uyarlamaları temelinde yeni metrikler geliştirdi.

Pratik uygulamayı kolaylaştırmak için 'langfair' adlı açık kaynak Python kütüphanesi de yayımlandı. Beş farklı LLM ve beş istem popülasyonu üzerinde yapılan kapsamlı deneyler, tek başına benchmark performansının adalet risklerini güvenilir şekilde değerlendirmek için yeterli olmadığını ortaya koyuyor.

Bu çalışma, yapay zeka sistemlerinin toplumsal etkilerinin daha hassas ve bağlama özgü değerlendirmesi için önemli bir adım teşkil ediyor.