Yapay zeka asistanları günlük yaşamımızın ayrılmaz parçası haline gelirken, bu sistemlerin karşılaştığı zorluklar da değişiyor. Ofis ortamındaki düzenli ve yapılandırılmış görevlerden farklı olarak, gerçek yaşam çok daha karmaşık ve öngörülmez bağlamlar sunuyor.
Araştırmacılar, mevcut dil modellerinin bu gerçek yaşam karmaşıklığıyla ne kadar iyi başa çıkabildiğini anlamak için CL-bench Life adlı kapsamlı bir test sistemi oluşturdu. Bu sistem tamamen insan uzmanlar tarafından hazırlandı ve 405 farklı bağlam-görev kombinasyonu ile 5,348 detaylı değerlendirme kriteri içeriyor.
Test sistemi, günlük yaşamda karşılaştığımız tipik durumları yansıtıyor: birden fazla kişinin katıldığı karışık sohbetler, kişisel belge arşivleri, davranış kalıpları ve sosyal etkileşimler. Bu bağlamlar genellikle eksik bilgiler içeriyor, farklı kaynaklardan parçalar barındırıyor ve kişisel deneyimlerle derinden bağlantılı.
Araştırmanın bulguları, mevcut yapay zeka modellerinin profesyonel ortamlardaki başarılarının gerçek yaşamın dağınık ve kişisel doğasında aynı düzeyde olmadığını ortaya koyuyor. Bu sonuç, yapay zeka sistemlerinin günlük yaşamda daha etkili olabilmesi için geliştirilmesi gereken alanları işaret ediyor.