Stanford Üniversitesi araştırmacıları, yapay zekanın hukuk alanındaki performansını değerlendirmek için CaseFacts adlı yeni bir benchmark geliştirdi. Bu sistem, sıradan vatandaşların hukuki konulardaki iddialarını ABD Yüksek Mahkemesi kararlarıyla karşılaştırarak doğruluğunu test ediyor.
Geleneksel doğruluk kontrol sistemleri genellikle genel bilgileri statik veri tabanlarına karşı kontrol ederken, CaseFacts hukukun dinamik ve teknik doğasını göz önünde bulunduruyor. Sistem, 6.294 hukuki iddiayı 'desteklenen', 'çürütülen' veya 'iptal edilen' kategorilerinde sınıflandırıyor.
Araştırmanın en zorlu yanı, günlük dilde ifade edilen iddiaları karmaşık hukuki metinlerle eşleştirmek. Örneğin, bir kişinin 'polis arama izni olmadan telefona bakabilir mi?' sorusunu, ilgili mahkeme kararlarındaki teknik hukuki terminolojiyle bağdaştırmak gerekiyor.
Veri seti oluşturmak için araştırmacılar, uzman hukuk özetlerinden yola çıkarak büyük dil modellerini kullandı. Özellikle mahkeme kararlarının zaman içinde iptal edilmesi gibi karmaşık durumları tespit etmek için yenilikçi semantik benzerlik algoritmaları geliştirdiler.
Günümüzün en gelişmiş yapay zeka modellerinin bile bu testte zorlandığı gözlemlendi. Bu durum, hukuk alanında yapay zeka uygulamaları için hala önemli teknik engeller bulunduğunu gösteriyor.