“ComPaSS” için sonuçlar

BizCompass: İş Dünyası İçin Yapay Zeka Performans Ölçüm Aracı Geliştirildi

Araştırmacılar, büyük dil modellerinin (LLM) iş dünyasındaki performansını değerlendirmek için BizCompass adlı yeni bir benchmark geliştirdi. Bu araç, yapay zekanın finans, ekonomi, istatistik ve operasyon yönetimi gibi temel iş alanlarındaki yetkinliklerini ölçüyor. BizCompass, teorik bilgiyi pratik uygulamalarla birleştirerek, analist, trader ve danışman rollerinde AI'ın ne kadar güvenilir olduğunu test ediyor. İş analizi karmaşık muhakeme gerektirdiğinden, mevcut testlerin yetersiz kaldığı bu alanda kapsamlı bir değerlendirme aracının eksikliği hissediliyordu. Bu benchmark, AI'ın iş dünyasında hangi görevlerde daha başarılı olduğunu ortaya çıkararak, şirketlerin yapay zeka yatırımlarında daha bilinçli kararlar almasına yardımcı olacak.

WebCompass: Web kodlama yapay zekalarını çok boyutlu test eden yeni benchmark

Yapay zeka modelleri artık web sitesi kodlama konusunda oldukça yetenekli hale geldi, ancak mevcut test sistemleri bu yetenekleri tam olarak ölçemiyordu. Araştırmacılar, WebCompass adında yeni bir değerlendirme sistemi geliştirdi. Bu sistem, AI modellerinin web kodlama yeteneklerini metin, görsel ve video girişleriyle test ediyor. Gerçek dünyada web geliştiricilerinin yaptığı gibi, kodları üretme, düzenleme ve onarma becerilerini aynı anda değerlendiriyor. WebCompass, 15 farklı alan, 16 düzenleme türü ve 11 onarım kategorisini kapsıyor. Her görev kolay, orta ve zor seviyelerde sınıflandırılmış. Bu kapsamlı test sistemi, yapay zeka modellerinin web geliştirme alanındaki gerçek performanslarını daha doğru bir şekilde ölçmeyi hedefliyor.

Yapay Zeka Arkadaşları Artık Daha Empatik: ComPASS Sistemi Geliştirildi

Araştırmacılar, kullanıcılara kişiselleştirilmiş sosyal destek sağlayabilen yeni bir yapay zeka sistemi geliştirdi. ComPASS adı verilen bu sistem, sadece duygusal tepkiler vermekle kalmayıp, çeşitli araçlar kullanarak farklı türlerde destek sunabiliyor. Psikolojik sosyal destek kavramından ilham alan sistem, kullanıcıların bireysel ihtiyaçlarına göre uyarlanabilen çok medyalı uygulamalar içeriyor. İnsan-bilgisayar etkileşiminde empati konusundaki mevcut sınırları aşmayı hedefleyen bu çalışma, yapay zeka asistanlarının gelecekte daha anlamlı ve destekleyici arkadaşlık sunabileceğini gösteriyor. Araştırma kapsamında oluşturulan ComPASS-Bench, bu alandaki ilk kişiselleştirilmiş sosyal destek test platformu olarak öne çıkıyor.

Yapay Zeka Modellerinin Sağduyu Değerlendirmesinde Yenilikçi Yöntem Geliştirildi

Araştırmacılar, yapay zeka modellerinin sağduyu düzeyini ölçmek için ComPaSS adlı yeni bir yöntem geliştirdi. Bu yaklaşım, cümlelere sağduyu bilgisi eklendiğinde ortaya çıkan anlam kaymasını ölçerek makul ve makul olmayan durumları ayırt ediyor. Makul durumlar minimal anlam kaymasına, makul olmayan durumlar ise büyük sapmalara neden oluyor. Büyük dil modelleri ve görsel-dil modellerinde yapılan testler, ComPaSS'ın mevcut yöntemlerden daha başarılı olduğunu gösteriyor. Araştırma, yapay zeka sistemlerinin insan benzeri muhakeme yapabilme kapasitelerinin değerlendirilmesinde önemli bir adım olarak görülüyor.

20 Apr

Yapay zeka asistanları sınırlı optimizasyon problemlerinde zorlanıyor

Araştırmacılar, büyük dil modellerinin (LLM) gerçek dünya görevlerindeki performansını değerlendiren COMPASS adlı yeni bir test sistemi geliştirdi. Seyahat planlama senaryoları üzerinden yapılan testlerde, yapay zeka asistanlarının kısıtlı optimizasyon problemlerinde ciddi eksiklikleri ortaya çıktı. Modeller %70-90 oranında temel gereksinimleri karşılayabilirken, kullanıcı memnuniyetini optimize etmede sadece %20-60 başarı gösterdi. Bu sonuçlar, AI asistanlarının pratik kullanımda henüz insan benzeri karar verme yeteneğine tam olarak sahip olmadığını gösteriyor.