Claude yapay zekası 6 dilde test edildi: Diller arası tutarsızlıklar keşfedildi

Antropic'in Claude yapay zeka modeli, altı farklı dilde kapsamlı testlere tabi tutuldu. Araştırmacılar, İngilizce, Fransızca, Romence, İspanyolca, İtalyanca ve Almanca dillerinde aynı anlamda sorular sorarak modelin tutarlılığını inceledi. 216 yanıt üzerinden yapılan analiz, diller arasında önemli farklar olduğunu ortaya koydu. Fransızca yanıtların Almanca yanıtlardan %30 daha uzun olduğu, yaratıcılık ve duygusal içerik gerektiren konularda ise diller arası en fazla farklılığın görüldüğü tespit edildi. Bu çalışma, yapay zeka modellerinin çok dilli performansını değerlendirmek için yeni bir framework sunuyor.

Büyük dil modellerinin çok dilli yetenekleri, yapay zeka araştırmalarının önemli konularından biri haline geldi. Yeni bir çalışma, Antropic'in Claude modelini altı farklı dilde test ederek, aynı soruya verilen yanıtların diller arasında ne kadar tutarlı olduğunu inceledi.

Araştırmacılar, Diller Arası Yeterlilik Masası (ILR) standartlarını temel alan sistematik bir değerlendirme çerçevesi geliştirdi. Bu çerçeve ile Claude modeline İngilizce, Fransızca, Romence, İspanyolca, İtalyanca ve Almanca dillerinde semantik olarak eşdeğer sorular yönelttiler. Toplamda 12 farklı soru grubundan 216 yanıt toplandı.

Analiz sonuçları dikkat çekici farklılıklar ortaya koydu. Fransızca yanıtların Almanca yanıtlardan ortalama %30 daha uzun olduğu, yaratıcı ve duygusal içerik gerektiren sorularda ise diller arası en büyük farklılıkların yaşandığı gözlemlendi.

12 yıllık ILR değerlendirme deneyimi olan uzmanların yaptığı nitel analiz, beş farklı çapraz dil varyasyon kalıbı belirledi. Bu kalıplar, yapay zeka modellerinin farklı dillerdeki kültürel ve dilbilimsel özelliklerden nasıl etkilendiğini gösteriyor.

Çalışma, yapay zeka modellerinin gerçek dünya uygulamalarında çok dilli tutarlılığın önemini vurguluyor ve gelecekteki geliştirmeler için önemli ipuçları sunuyor.