“DART” için sonuçlar

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Görselleri Yeteri Kadar Analiz Etmiyor

Stanford araştırmacıları, görsel-dil modellerinin beklenenden çok daha fazla metinsel açıklamalara dayandığını ve görsel bilgileri yeterince kullanmadığını keşfetti. Bu durum 'metin kısayolu öğrenmesi' olarak adlandırılıyor. Araştırmacılar, modellerin görsel güvenilirliğini test etmek için çelişkili metin-görsel çiftleri kullanarak yeni bir değerlendirme sistemi geliştirdi. Geometrik şekiller üzerinde yapılan deneyler, standart CLIP modelinin yanıltıcı metinlerle karşılaştığında performansının %27,5 düştüğünü gösterdi. Ancak optimize edilmiş versiyonda bu düşüş %9,8'e kadar azaltıldı. Bu bulgular, yapay zekanın görsel anlama kapasitesini geliştirmek için daha sofistike eğitim yöntemlerine ihtiyaç olduğunu ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Grafik Dönüştürücülerde Devrim: SigGate-GT ile Aşırı Düzgünleşme Sorunu Çözüldü

Stanford araştırmacıları, grafik dönüştürücü yapay zeka modellerinde yaşanan 'aşırı düzgünleşme' sorununa yenilikçi bir çözüm geliştirdi. SigGate-GT adlı yeni sistem, sigmoid kapıları kullanarak modellerin derinleştikçe bilgi kaybetmesi problemini çözüyor. Büyük dil modellerindeki dikkat batma sorunuyla benzer kök nedenleri paylaşan bu sorun, softmax dikkat mekanizmasının her düğümü bir yere odaklanmaya zorlamasından kaynaklanıyor. Yeni yaklaşım, her dikkat kafasına öğrenilen sigmoid kapıları ekleyerek, bilgi vermeyen bağlantıları seçici şekilde susturma imkanı sağlıyor. Moleküler veri analizi ve uzun mesafeli akıl yürütme görevlerinde test edilen sistem, beş standart kıyaslamada önceki en iyi sonuçları yakalayıp aştı. Bu gelişme, grafik tabanlı yapay zeka uygulamalarında önemli bir ilerleme anlamına geliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

RISC-V İşlemciler Otonom Araçların Güvenlik Sertifikasyonunda Yeni Umut

Açık kaynaklı RISC-V işlemci mimarisi, otonom araçlarda güvenlik kritik sistemler için umut vadediyor. Araştırmacılar, RISC-V'nin şeffaf yapısının otomotiv güvenlik standartlarına uygunluğunu analiz etti. ISO 26262 ASIL-D sertifikasyonlarıyla kanıtlanan bu mimari, otonom sürüş sistemlerinde güvenilir deployment için hazır durumda. Ancak otomotiv sektöründe fonksiyonel güvenlik, işlemci sorunundan çok sertifikasyon sorunu olarak karşımıza çıkıyor. Maliyet faktörleri tanı kapsamı analizi, araç zinciri yeterliliği ve güvenlik vakası oluşturma süreçlerinden kaynaklanıyor. RISC-V'nin açık ISA yapısı, formal doğrulanabilirliği ve özel uzantı kontrolü gibi özellikleri, güvenlik gereksinimlerini karşılamada avantaj sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

EHRAG: Yapay Zeka Sorgu Sistemlerini Güçlendiren Yeni Hibrit Yaklaşım

Araştırmacılar, büyük dil modellerinin bilgi erişim yeteneklerini artıran GraphRAG teknolojisinde önemli bir gelişme kaydetti. EHRAG adlı yeni framework, geleneksel yaklaşımların aksine sadece yapısal bağlantıları değil, aynı zamanda anlamsal ilişkileri de yakalayabiliyor. Sistem, metin içindeki varlıklar arasındaki gizli bağlantıları tespit ederek daha kapsamlı ve doğru yanıtlar üretebiliyor. Hibrit hiperçizge yapısı kullanan EHRAG, hem hesaplama maliyetlerini düşürüyor hem de sorgu performansını artırıyor. Bu gelişme, yapay zeka destekli arama motorları ve bilgi erişim sistemlerinde yeni bir standart oluşturabileceği için büyük önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Türbülanslı Akışları Tahmin Etmek İçin Yeni Yaklaşım Geliştirdi

Araştırmacılar, türbülanslı akışlar gibi karmaşık fiziksel sistemleri modellemek için difüzyon tabanlı makine öğrenmesi yöntemlerinde önemli bir iyileştirme gerçekleştirdi. Geleneksel yaklaşımların yetersiz kaldığı yüksek boyutlu ve doğrusal olmayan dinamiklerde, görüntü üretimi için tasarlanan hedef parametreleştirme yöntemlerini fiziksel alanlar için yeniden değerlendirdiler. Yama tabanlı transformer mimarisi kullanan çalışma, türbülanslı akış simülasyonlarında test edildi. Sonuçlar, fiziksel sistemlerin karakteristik özelliklerini dikkate alan özel parametreleştirme yaklaşımlarının, standart görüntü işleme yöntemlerinden daha başarılı olduğunu gösteriyor. Bu gelişme, hava durumu tahmininden mühendislik tasımına kadar birçok alanda daha güvenilir simülasyonlar yapılmasını sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Kredi Riskini Öngörmede Yeni Yaklaşım: STRIKE Sistemi

Finansal sektörün en kritik sorunlarından biri olan kredi riski tahmininde devrim yaratacak yeni bir yapay zeka sistemi geliştirildi. STRIKE adlı bu sistem, borçluların geri ödeme kabiliyetini değerlendirirken geleneksel yöntemlerin aksine veriyi anlamlı gruplara bölerek analiz ediyor. Modern kredi veri setlerinin karmaşık, heterojen ve gürültülü yapısı nedeniyle tek bir modelin yetersiz kaldığı durumlarda, STRIKE her veri grubuna özel uzmanlaşmış modeller kullanıyor. Bu yaklaşım, aşırı öğrenme riskini azaltırken daha güvenilir tahminler sunuyor. Araştırma, özellikle yüksek boyutlu finansal verilerde geleneksel makine öğrenmesi modellerinin sınırlarını aşmayı hedefliyor ve risk yönetiminde yeni standartlar belirleme potansiyeli taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AI Terapist Güvenliği için Yeni Değerlendirme Sistemi Geliştirildi

Stanford araştırmacıları, büyük dil modellerinin ruh sağlığı danışmanlığında güvenliğini değerlendirmek için yeni bir sistem geliştirdi. MHSafeEval adlı bu sistem, AI'ların terapist rolündeyken nasıl zararlı davranışlar sergileyebileceğini çok turlu konuşmalarda test ediyor. Mevcut değerlendirme yöntemleri genellikle tek cevaplara odaklanırken, yeni sistem AI'ın hasta ile etkileşim boyunca nasıl zararlı roller üstlenebileceğini inceliyor. R-MHSafe taksonomisi ile AI'ların suçlu, kışkırtıcı, kolaylaştırıcı veya destekleyici roller oynayabileceği belirleniyor. Bu çalışma, ruh sağlığı alanında AI kullanımının güvenlik standartlarının geliştirilmesi açısından kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Füze savunmada çığır açan yaklaşım: Hedefe yaklaşmak yerine vurma şansını artırmak

Geleneksel füze güdüm sistemleri hedefe en yakın mesafeden geçmeye odaklanırken, MIT araştırmacıları bambaşka bir yaklaşım geliştirdi. Yeni yöntem, hedefe yaklaşma mesafesini minimize etmek yerine, hedefi vurma olasılığını doğrudan maksimize etmeyi amaçlıyor. Bu paradigma değişimi, özellikle standart olmayan hedeflere karşı tek atışta imha etme başarı oranını önemli ölçüde artırıyor. Bayesian karar teorisi ve diferansiyel oyun teorisini birleştiren sistem, savaş başlığının olasılıksal öldürücülük modelini de hesaba katıyor. Monte Carlo simülasyonları, yeni yaklaşımın hem normal hem de beklenmedik manevra yapan hedeflere karşı mevcut güdüm sistemlerinden tutarlı şekilde daha başarılı olduğunu gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Yazılım Kütüphanelerinden Farklı Mı Evrimleşiyor?

Modern yazılım geliştirmede önceden eğitilmiş yapay zeka modelleri (PTM'ler) artık kalıcı bağımlılıklar haline geldi. Geleneksel yazılım kütüphanelerinin evrimi iyi belgelenmiş olsa da, PTM bağımlılıklarının zaman içinde nasıl değiştiği henüz anlaşılamamıştı. Araştırmacılar, PTM'lerin opak iç yapıları ve hızla değişen sürüm döngüleri nedeniyle standart kütüphanelerden farklı davranış sergileyebileceğini öne sürüyor. Ayrıca geliştiriciler, tek bir PTM'yi farklı görevler için ayrı işlevsel bağımlılıklar olarak kullanabiliyor. Bu durum yazılım bakımında kritik bir soruyu gündeme getiriyor: PTM'ler standart yazılım kütüphaneleri gibi mi değişiyor yoksa farklı bir evrim paterni mi izliyor?

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

EcoTIM: Traktör ve Ekipmanın İş Birliği ile Yakıt Tasarrufu

Tarımsal toprak işleme faaliyetleri çiftliklerdeki dizel yakıt tüketiminin büyük bir kısmını oluşturuyor. Araştırmacılar, traktör ve tarım ekipmanının gerçek zamanlı iş birliği yaparak yakıt tüketimini optimize eden EcoTIM adlı yeni bir sistem geliştirdi. Bu sistem, ISO 11783 standart protokolü üzerinden traktörün motor, şanzıman ve çekiş verimlilik verilerini ekipmanla paylaşarak hektar başına yakıt tüketimini minimize ediyor. Modern sürekli değişken şanzımanlı (CVT) traktörler şu anda ekipmanı bilinmeyen bir yük olarak görüyor ve araç hızının toprak işleme direnci üzerindeki etkisini hesaba katmıyor. EcoTIM konsepti bu soruna çözüm getirerek tarımsal makinelerin yakıt verimliliğini artırmayı hedefliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Robotları Gerçekten Akıl Yürütebiliyor mu? Şaşırtıcı Test Sonuçları

Görme-dil-eylem yapay zeka modelleri standart robot testlerinde yüksek başarı oranları gösterse de, gerçek dünyada akıl yürütme yetenekleri sorgulanıyor. Araştırmacılar, bu modellerin gerçek bilişsel kapasitelerini ölçmek için BeTTER adlı yeni bir test sistemi geliştirdi. Test sonuçları, en gelişmiş yapay zeka robotlarının bile dinamik ortamlarda ciddi başarısızlıklar yaşadığını ortaya koydu. Modeller, gerçek akıl yürütme yerine kısayollar kullanarak yanıltıcı başarılar elde ediyor. Bu bulgular, genel amaçlı fiziksel zeka iddialarının yeniden değerlendirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Yeni Sıkıştırma Tekniği: W4A4 Niceleme Sorunu Çözüldü

Araştırmacılar, yapay zeka dil modellerinde kritik bir sıkıştırma sorununu çözdü. W4A4 niceleme adı verilen bu teknik, modelleri küçültürken performanslarını korumayı amaçlıyor ancak şimdiye kadar büyük doğruluk kayıplarına neden oluyordu. Stanford'dan araştırmacılar, SwiGLU mimarisine sahip 300 milyon parametreli bir modelde yaptıkları çalışmada, 'Depth Registers' adını verdikleri yeni bir yöntem geliştirdi. Bu teknik sayesinde, standart W4A4 sıkıştırma yönteminin neden olduğu performans kaybını 14 kata kadar azaltmayı başardılar. Model sıkıştırma, özellikle mobil cihazlarda ve sınırlı kaynaklara sahip sistemlerde yapay zeka uygulamalarını yaygınlaştırmak için kritik önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Endüstriyel Sistemler İçin Yeni Veri İşleme Dili: CPSLint

Araştırmacılar, endüstriyel siber-fiziksel sistemlerdeki büyük veri kümelerinin işlenmesi için CPSLint adlı özel bir programlama dili geliştirdi. Fabrikalar ve endüstriyel tesislerde sürekli toplanan zaman serisi verilerinin işlenmesi genellikle karmaşık ve tekrarlayan işlemler gerektiriyor. CPSLint, hem veri bilimcilerin hem de saha uzmanlarının bu verileri daha kolay hazırlayabilmesi için tasarlandı. Geleneksel yöntemlerde her proje için ayrı Python scriptleri yazılması gerekiyordu, bu da çok zaman alıcı ve hata yapma olasılığı yüksek bir süreçti. Yeni dil, soyutlama seviyesini yükselterek bu sorunları çözmeyi hedefliyor ve endüstriyel veri işleme süreçlerinde standartlaşma sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Çok Başarılı Olunca Öğrenemiyor: Yeni Çözüm Arayışları

Araştırmacılar büyük dil modellerinde paradoksal bir sorun keşfetti: modeller matematik gibi konularda çok başarılı hale gelince, çeşitlilik kaybederek gelişmeyi durduruyor. Stanford ve diğer kurumlardan bilim insanları, modellerin standart testlerde yüzde 90+ başarı oranlarına ulaştığında tek tip çözümler üretmeye başladığını gözlemledi. Bu durum, pekiştirmeli öğrenme algoritmalarının çalışmasını engelliyor çünkü modeller hatalarından öğrenecek yeterli başarısızlık örneği bulamıyor. Sorunun çözümü için geliştirilen CUTS yöntemi, modellerin keşif yapma yeteneğini koruyor ve çeşitli çözüm yolları üretmesini sağlıyor. Bu gelişme, yapay zekanın sürekli gelişim gösterebilmesi için kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka İçin Olimpiyat Seviyesi Matematik Soruları: MathNet Veri Seti Yayınlandı

Araştırmacılar, yapay zeka modellerinin matematiksel akıl yürütme yeteneklerini test etmek için kapsamlı bir veri seti geliştirdi. MathNet adı verilen bu veri seti, 47 ülkeden toplanan 30.676 olimpiyat seviyesi matematik problemini içeriyor. İki dekada yayılan ve 17 farklı dilde sunulan bu koleksiyon, büyük dil modellerinin ve çok modlu AI sistemlerinin matematiksel problem çözme kapasitelerini değerlendirmek için tasarlandı. Veri seti, hem problem çözme hem de matematiksel bilgi arama görevlerini destekliyor. Bu çalışma, AI sistemlerinin karmaşık matematiksel muhakeme gerektiren görevlerdeki performansını ölçmek için yeni bir standart oluşturuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

MetaLint: Kodlama Kurallarını Doğal Dille Öğreten Yeni Yapay Zeka Sistemi

Büyük dil modelleri kod yazma konusunda başarılı olsalar da, kodlama standartlarını kontrol etme ve yeni kurallara uyum sağlama konusunda zorlanıyorlar. Araştırmacılar, bu sorunu çözmek için MetaLint adlı yenilikçi bir meta-öğrenme çerçevesi geliştirdi. Bu sistem, kod kalitesi kontrolünü doğal dil talimatlarını takip etme görevi olarak ele alıyor ve modellerin kodun belirli standartlara uyup uymadığını değerlendirmesini sağlıyor. MetaLint'in en önemli özelliği, sabit kurallar yerine doğal dilde yazılmış spesifikasyonlara göre çalışması ve yeniden eğitim gerektirmeden yeni kurallara adapte olabilmesi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Radyasyon Algılamada Yeni Dönem: Yapay Zeka Geleneksel Yöntemleri Geride Bırakıyor

Radyasyon dedektörlerinde kullanılan nabız şekli ayırt etme algoritmalarının kapsamlı karşılaştırması yapıldı. Araştırmacılar, altmış farklı algoritmayı standart veri setleri üzerinde test etti. Sonuçlar, çok katmanlı yapay sinir ağları ve hibrit yaklaşımların geleneksel istatistiksel yöntemlerden daha başarılı olduğunu ortaya koydu. Bu teknoloji, nükleer güvenlik, tıbbi görüntüleme ve uzay araştırmalarında kritik öneme sahip. Çalışma, farklı algoritmaların performansını karşılaştırmak için yeni değerlendirme metrikleri de öneriyor. Bulgular, radyasyon algılama sistemlerinin geliştirilmesinde yapay zekanın artan rolünü vurguluyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yeni Kriptografi Tekniği: Gizli Tensör Hesaplama ile Güvenlik Devrimi

Araştırmacılar, iki tarafın birbirlerinin verilerini görmeden karmaşık matematiksel işlemler yapabilmesini sağlayan yeni bir kriptografik yöntem geliştirdi. 'Başarılı gizli tensör değerlendirmesi' adı verilen bu teknik, vektörlerin tensör çarpımını güvenli bir şekilde hesaplarken, iletilen mesaj boyutlarını minimal düzeyde tutuyor. Standart 'hatalarla öğrenme' problemi üzerine kurulu bu sistem, adaptif güvenlikli fonksiyon değerlendirme, tüm devreler için kapı fonksiyonları ve homomorfik gizli paylaşım gibi birçok kriptografik ilkel için temel oluşturuyor. Özellikle derinlik-D fonksiyonları için iletişim karmaşıklığını optimize eden bu yaklaşım, güvenli çok taraflı hesaplama alanında önemli bir ilerleme sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Güvenli Bilişim Sistemlerinde Kritik Açıklar Keşfedildi

Araştırmacılar, gizli bilgi işlem sistemlerinin temelini oluşturan TEE konteynerlerinde ciddi güvenlik açıkları tespit etti. Bu sistemler, hassas verileri kötü niyetli yazılımlardan korumak için tasarlanmışken, yapılan kapsamlı analizde 12 yeni hata, 6 saldırı vektörü ve 3 CVE güvenlik açığı ortaya çıkarıldı. Bulut bilişim altyapısında yaygın kullanılan bu teknolojilerdeki açıklar, kod çalıştırma, hizmet durdurma ve bilgi sızıntısı gibi saldırılara zemin hazırlıyor. Çalışma, güvenilir yürütme ortamlarının mevcut durumunu sorgulatırken, gelecekteki güvenlik standartları için önemli ipuçları sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Görüntü Gürültüsünü Temizleyen Yeni Matematiksel Model Geliştirildi

Araştırmacılar, dijital görüntülerdeki gürültüyü temizlemek için dördüncü dereceden yeni bir matematiksel model geliştirdi. Geleneksel ikinci dereceden modeller gürültü temizleme sırasında görüntülerde blok şeklinde bozukluklar yaratırken, yeni model hem difüzyon hem de dalga özelliklerini birleştireyor. Bu hibrit yaklaşım, gürültüyü etkili şekilde azaltırken görüntünün ince detaylarını ve dokularını koruyor. Model özellikle radar görüntüleri gibi yoğun gürültü içeren teknik görüntülerde başarılı sonuçlar veriyor. Araştırma ekibi ayrıca modeli renkli görüntüler için de uyarlamış durumda. Peak Signal-to-Noise Ratio ve Mean Structural Similarity Index gibi standart ölçümlerle yapılan testlerde yeni yaklaşımın mevcut yöntemlerden daha iyi performans gösterdiği kanıtlanmış.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Metinlerdeki Varlıkları Nasıl Tespit Ediyor?

Araştırmacılar, büyük dil modellerinin metinlerde yer alan varlıkları (kişi, yer, kurum adları gibi) nasıl tespit ettiğini araştırdılar. ToMMeR adlı yeni model, geleneksel yöntemlere göre çok daha az parametre kullanarak %75 başarı oranına ulaştı. Çalışma, yapay zeka modellerinin dil öğrenme sürecinde doğal olarak varlık tespiti yetisi geliştirdiğini gösteriyor. Model, standart testlerde %80-87 F1 skoru elde ederek mevcut sistemlerle rekabet edebilir performans sergiliyor. Bu bulgular, transformer mimarilerinin erken katmanlarında yapılandırılmış varlık temsillerinin var olduğunu ve bunların minimal parametre kullanımıyla etkili şekilde çıkarılabileceğini ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

SpiralThinker: Yapay Zeka Artık İnsan Gibi Adım Adım Düşünebiliyor

Araştırmacılar, yapay zekanın muhakeme yeteneğini devrim niteliğinde geliştiren SpiralThinker adlı yeni bir sistem geliştirdi. Bu sistem, tıpkı insanlar gibi adım adım düşünme sürecini taklit ediyor ve her aşamada kararlarını gözden geçiriyor. Geleneksel AI sistemleri sadece metin tabanlı çıkarımlar yaparken, SpiralThinker hem görünür hem de gizli düşünce katmanlarında iteratif güncellemeler gerçekleştiriyor. Matematiksel problemler, mantık soruları ve sağduyulu akıl yürütme görevlerinde test edilen sistem, mevcut en gelişmiş modelleri geride bırakarak başarıda yeni standartlar belirledi. Bu gelişme, yapay zekanın daha karmaşık problemleri çözme kapasitesini önemli ölçüde artırarak, gelecekte daha güvenilir ve sofistike AI uygulamalarının önünü açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Grafik Sinir Ağları İçin Yeni PyTorch Kütüphanesi: Torch Geometric Pool

Araştırmacılar, grafik sinir ağlarında kullanılan havuzlama (pooling) işlemlerini standartlaştıran yeni bir Python kütüphanesi geliştirdi. Torch Geometric Pool (tgp) adlı bu açık kaynak kütüphane, farklı havuzlama yöntemlerini tek bir arayüz altında birleştirerek araştırmacıların işini kolaylaştırıyor. Grafik sinir ağları, sosyal ağlar, moleküler yapılar ve bilgisayar ağları gibi karmaşık ilişki yapılarını analiz etmek için kullanılan yapay zeka modelleridir. Havuzlama işlemi ise bu ağlardaki düğümleri gruplandırarak hesaplama karmaşıklığını azaltır. Yeni kütüphane, 20 farklı havuzlama algoritması sunarak araştırmacıların farklı yöntemleri kolayca karşılaştırmasını sağlıyor. Select-Reduce-Connect-Lift (SRCL) adlı standart bir yaklaşım benimseyen sistem, MIT lisansı altında GitHub ve PyPI platformlarında ücretsiz olarak sunuluyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Çeviri Değerlendirmesi Artık İnsan Gücüyle Kolay: Pearmut Platformu

Makine çevirilerinin kalitesini değerlendirmede insan değerlendirmesi altın standart sayılır, ancak karmaşık kurulum süreçleri nedeniyle genellikle otomatik metrikler tercih edilir. Araştırmacılar, bu sorunu çözmek için Pearmut adlı yeni bir platform geliştirdi. Platform, çok dilli doğal dil işleme görevlerinin insan tarafından değerlendirilmesini otomatik değerlendirme kadar kolay hale getiriyor. DA, ESA ve MQM gibi standart protokolleri destekleyen sistem, belge düzeyinde bağlam analizi, mutlak ve karşılaştırmalı değerlendirme özellikleri sunuyor. Bu gelişme, model geliştirme süreçlerinde güvenilir insan değerlendirmesini rutin bir bileşen haline getirebilir.

arXiv (CS + AI) 0