“muhakeme” için sonuçlar

Teknoloji & Yapay Zeka

12 May

Yapay Zeka Destekli Malzeme Keşfi İçin Eğitim Modeli Geliştirildi

Malzeme biliminde yapay zeka kullanımının artmasıyla birlikte, öğrencilerin bu teknolojiyi etkili şekilde kullanabilmesi için yeni bir eğitim yaklaşımına ihtiyaç duyuluyor. Araştırmacılar, sadece AI araçlarına erişim sağlamanın yeterli olmadığını, bunun yerine bilimsel muhakeme becerilerini destekleyen kapsamlı bir AI okuryazarlığı modelinin gerekli olduğunu savunuyor. Yeni framework, veri kaynağı analizi, model doğrulama, belirsizlik hesaplama ve fizik tabanlı akıl yürütme gibi malzeme bilimi odaklı becerileri kapsıyor. Bu yaklaşım, gelecekteki bilim insanlarının AI'yi körü körüne kullanmak yerine, bilimsel yargıyla harmanlayarak daha etkili araştırmalar yapabilmesini hedefliyor.

arXiv — Fizik Eğitimi 0

Teknoloji & Yapay Zeka

4 May

Yapay Zeka Hukuk Muhakemesinde Yeni Test: LEGIT Veri Seti

Araştırmacılar, yapay zeka modellerinin hukuki muhakeme yeteneklerini değerlendirmek için LEGIT adlı yeni bir veri seti geliştirdi. 24 bin mahkeme kararından oluşan bu veri seti, AI'ların hukuki argümanları ne kadar iyi analiz edebildiğini ölçüyor. Çalışma, mevcut AI modellerinin hukuki konuları kavrama ve doğru sonuçlara varma konularında ciddi eksiklikleri olduğunu ortaya koydu. Mahkeme kararlarını hiyerarşik ağaç yapılarına dönüştüren sistem, tarafların argümanları ile mahkemenin sonuçlarını karşılaştırarak AI'ların muhakeme kalitesini değerlendiriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

PRISM: Yapay Zekada Çoklu Ortam Öğrenmesi İçin Yeni Eğitim Yöntemi

Araştırmacılar, büyük çoklu ortam modellerinin (görsel ve metinsel verileri birlikte işleyen AI sistemler) eğitiminde karşılaşılan temel bir sorunu çözmek için PRISM adlı yeni bir yaklaşım geliştirdi. Mevcut eğitim süreçlerinde modeller, başlangıçtaki yeteneklerini kaybetme ve istenmeyen davranış değişiklikleri gösterme eğiliminde. PRISM, bu sorunu üç aşamalı bir süreçle çözüyor: önce denetimli öğrenme, ardından dağılım hizalama ve son olarak pekiştirmeli öğrenme. Sistem, algısal hatalar ve mantıksal başarısızlıkları ayrı ayrı ele alan uzman modüller kullanarak, AI'ın hem görme hem de muhakeme becerilerini daha dengeli şekilde geliştiriyor. Bu yaklaşım, özellikle görsel-metinsel çoklu ortam görevlerinde modellerin performansını artırarak, gelecekteki AI sistemlerinin daha güvenilir olmasına katkıda bulunabilir.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Finansal Analiz Zayıflıklarını Ortaya Çıkaran Yeni Test Geliştirildi

Araştırmacılar, yapay zeka modellerinin finansal analiz yeteneklerini değerlendirmek için FinChain adlı yeni bir test sistemi geliştirdi. Mevcut testler sadece nihai cevaplara odaklanırken, FinChain yapay zekanın adım adım mantıksal düşünme sürecini de denetliyor. 12 farklı finansal alandan 58 konuyu kapsayan bu sistem, yapay zekanın her hesaplama adımını Python kodu ile doğrulayabiliyor. 26 önde gelen yapay zeka modelinin değerlendirildiği çalışmada, en gelişmiş modellerin bile finansal muhakemede önemli eksiklikleri olduğu ortaya çıktı. Bu bulgular, finansal kararların yapay zeka destekli sistemlere bırakılmadan önce dikkatli değerlendirme yapılması gerektiğini gösteriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Modellerinin Aşırı Güven Sorunu İçin Yeni Çözüm: DCPO Yöntemi

Büyük dil modellerinin mantıksal muhakeme yeteneklerini artıran RLVR yöntemi, modellerin yanlış cevaplarda bile aşırı güvenli olması sorununa yol açıyor. Araştırmacılar, bu sorunu çözmek için DCPO adlı yeni bir yaklaşım geliştirdi. Yöntem, muhakeme ve güven kalibrasyonu süreçlerini birbirinden ayırarak, modellerin hem doğru cevap verme hem de gerçekçi güven seviyeleri gösterme kabiliyetini dengeliyor. Bu çalışma, yapay zekanın güvenilirliği açısından önemli bir adım teşkil ediyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Artık Görsel İlişkileri Daha İyi Anlıyor

Araştırmacılar, çok modlu yapay zeka modellerinin görsel ve metinsel bilgileri birlikte işleyerek karmaşık ilişkisel yapıları anlama yeteneğini geliştiren yeni bir yaklaşım ortaya koydu. STAR (Yapılandırılmış ve Soyut Muhakeme) adı verilen bu yöntem, görsel verilerden çıkarılan soyut ilişkileri düğüm-kenar formatında modelleyerek AI'nın muhakeme kapasitesini artırıyor. Çalışma, özellikle görsel modallıktan gelen soyut bilgilerin işlenmesindeki zorlukları ele alıyor ve bu alanda önemli bir boşluğu dolduruyor. Geliştirilen otomatik veri motoru, çok modlu talimat verilerini güvenilir düşünce zinciri mantığıyla sentezleyebiliyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Doktorların Etik Kararlarını Değerlendiren Yeni Test Geliştirildi

Tıp alanında yapay zeka sistemleri yaygınlaşırken, bu sistemlerin etik muhakeme yeteneklerini değerlendirmek kritik önem kazanıyor. Araştırmacılar, tıbbi yapay zeka sistemlerinin etik kararlarını sistematik bir şekilde değerlendirebilmek için PrinciplismQA adlı yeni bir test yöntemi geliştirdi. Bu yaklaşım, tıp etiğinin temel felsefesine dayanan Principlism çerçevesini kullanarak, yapay zekanın karmaşık etik ikilemler karşısındaki karar verme süreçlerini analiz ediyor. 3.648 uzman onaylı sorudan oluşan sistem, hem bilgi düzeyini hem de klinik muhakeme becerisini ölçüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri kendi hatalarını fark edebiliyor mu? Yeni test şaşırtıyor

Görsel-dil yapay zeka modellerinin gerçekten anlayıp anlamadığı uzun süredir merak konusu. Araştırmacılar, bu modellerin yanlış muhakeme süreçlerini tespit edip hata türlerini ayırt edebilme becerilerini ölçen yeni bir benchmark geliştirdi. MMErroR adlı bu test, 24 farklı alt alanda 1997 örnek içeriyor ve her birinde tutarlı bir mantık hatası bulunuyor. Test sonuçları oldukça çarpıcı: En başarılı model olan Gemini-3-Pro-Preview bile hataları sadece %66,65 oranında doğru sınıflandırabiliyor. Bu bulgular, yapay zeka modellerinin görsel ve dilsel içeriklerdeki mantık hatalarını tespit etmede hâlâ ciddi zorluklarla karşılaştığını gösteriyor. Araştırma, sadece doğru cevap vermeye odaklanan mevcut testlerden farklı olarak, süreç odaklı bir değerlendirme yaklaşımı benimsiyor ve yapay zekanın gerçek anlayış kapasitesini sorguluyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Matematiksel Mantık Yürütme Sorunu Çözüldü

Büyük dil modellerinin matematiksel problem çözümünde gerçek mantıksal düşünme yerine ezber ve şablon eşleştirme kullandığı ortaya çıktı. Araştırmacılar, hataların %90'ından fazlasının mantıksal ilişkileri anlayamama kaynaklı olduğunu tespit etti. Geliştirilen FSLR yöntemi, modellerin ilk adımda hangi değişkenleri kullanacaklarını ve hangi işlemi uygulayacaklarını belirlemeye odaklanarak bu sorunu hafif bir eğitim çerçevesiyle çözmeyi hedefliyor. Bu yaklaşım, mevcut CoT-SFT yönteminin yetersiz kaldığı mantıksal ilişki anlama becerisini güçlendiriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

BizCompass: İş Dünyası İçin Yapay Zeka Performans Ölçüm Aracı Geliştirildi

Araştırmacılar, büyük dil modellerinin (LLM) iş dünyasındaki performansını değerlendirmek için BizCompass adlı yeni bir benchmark geliştirdi. Bu araç, yapay zekanın finans, ekonomi, istatistik ve operasyon yönetimi gibi temel iş alanlarındaki yetkinliklerini ölçüyor. BizCompass, teorik bilgiyi pratik uygulamalarla birleştirerek, analist, trader ve danışman rollerinde AI'ın ne kadar güvenilir olduğunu test ediyor. İş analizi karmaşık muhakeme gerektirdiğinden, mevcut testlerin yetersiz kaldığı bu alanda kapsamlı bir değerlendirme aracının eksikliği hissediliyordu. Bu benchmark, AI'ın iş dünyasında hangi görevlerde daha başarılı olduğunu ortaya çıkararak, şirketlerin yapay zeka yatırımlarında daha bilinçli kararlar almasına yardımcı olacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Muhakemede Yeni Çığır: Ormandan Önce Ağaçları Görme Yaklaşımı

Araştırmacılar, büyük görsel-dil modellerinin muhakeme yeteneklerini artıran yeni bir yöntem geliştirdi. Laser adlı bu yaklaşım, geleneksel Chain-of-Thought yönteminin bilgi darboğazı sorununu çözmeyi hedefliyor. Yöntem, modellerin önce genel görsel özellikleri kavramasını, sonra detaylara odaklanmasını sağlayan 'Ormandan Önce Ağaçlar' ilkesini benimsiyor. Dinamik Pencereli Hizalama Öğrenmesi kullanan sistem, görsel detayları kaybetmeden daha etkili muhakeme yapabilir. Bu gelişme, yapay zekanın görsel anlama ve mantıksal çıkarım yapma kapasitesinde önemli bir ilerleme anlamına geliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

PiERN: Yapay Zeka Modellerini Hesaplama Uzmanlarına Dönüştüren Yeni Mimari

Araştırmacılar, büyük dil modellerinin (LLM) karmaşık matematiksel hesaplamaları doğrudan gerçekleştirebilmesi için PiERN (Fiziksel Olarak İzole Uzmanlar Yönlendirme Ağı) adında yeni bir mimari geliştirdi. Mevcut yapay zeka modelleri, karmaşık sistemler üzerinde karar vermek için gereken yüksek hassasiyetli sayısal hesaplamaları doğal olarak yapamıyor. Çok-ajan yaklaşımları dış uzmanlardan yararlanabilse de iletişim yükü ve ölçeklenebilirlik sorunları yaratıyor. PiERN, hesaplama yeteneklerini sinir ağlarına içsel olarak entegre ederek bu sorunu çözmeyi hedefliyor. Sistem, ayrı olarak eğitilen uzmanları, metin-hesaplama modülünü ve yönlendiricisi sayesinde token seviyesinde hesaplama ve muhakemeyi yönetiyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Belirsizlik Artık Kontrol Sinyali Olarak Kullanılıyor

Büyük dil modelleri (LLM'ler) etkileyici yetenekler sergilese de güvenilirlik sorunları kritik alanlardaki kullanımlarını sınırlıyor. Yeni bir araştırma, belirsizliğin pasif bir ölçüm aracı olmaktan çıkıp aktif bir kontrol mekanizmasına dönüştüğünü ortaya koyuyor. Bu yaklaşım, modellerin gerçek zamanlı davranışlarını yönlendirmek için belirsizlik verilerini kullanıyor. Gelişmiş muhakemede hesaplama optimizasyonu, otonom ajanlarda araç kullanımı kararları ve pekiştirmeli öğrenmede ödül manipülasyonunun önlenmesi gibi üç temel alanda uygulanıyor. Bayesian yöntemler ve Konformal Tahmin gibi teorik çerçevelerle desteklenen bu dönüşüm, yapay zeka sistemlerinin kendilerini kontrol etme ve iyileştirme kabiliyetlerini artırıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka ve Formal Mantık İş Birliği: Silogizm Doğruluğunda Yeni Yaklaşım

Araştırmacılar, mantıksal muhakemede yapay zekanın zayıf olduğu noktaları gidermek için hibrit bir sistem geliştirdi. FregeLogic adlı bu sistem, beş farklı dil modelinin bir araya geldiği topluluk yaklaşımını, Z3 formal mantık çözücüsüyle birleştiriyor. Sistem, silogizmlerin geçerliliğini değerlendirirken, yapay zekanın gerçek dünya inançlarından etkilenme sorununu çözmeyi hedefliyor. Dil modelleri arasında anlaşmazlık olduğunda, formal mantık devreye girerek objektif bir karar veriyor. 960 örneklik veri setinde %94,3 doğruluk oranına ulaşan sistem, sadece yapay zeka kullanan yaklaşımlardan 2,76 puan daha iyi performans gösterdi. Bu çalışma, yapay zekanın mantıksal düşünme kapasitesini artırmak için sembolik yaklaşımlarla hibrit modellerin önemini ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Mantık Hatasını Çözen Yeni Araştırma

Stanford araştırmacıları, büyük dil modellerinin (LLM) mantıksal geçerlilik ile inandırıcılığı nasıl karıştırdığını keşfetti. Çalışma, AI sistemlerinin insan gibi 'içerik etkisi' gösterdiğini ve bir ifadenin mantıksal doğruluğunu değerlendirirken, o ifadenin ne kadar inandırıcı geldiğinden etkilendiğini ortaya koydu. Araştırmacılar, modellerin iç temsillerini inceleyerek bu iki kavramın nöral ağda aynı bölgelerde kodlandığını ve bu nedenle birbiriyle karıştırıldığını gösterdi. Özellikle 'yönlendirme vektörleri' kullanarak, bir kavramın diğerini nasıl etkileyebildiğini kanıtladılar. Bu bulgular, yapay zeka modellerinin mantıksal muhakeme yeteneklerinin geliştirilmesi için kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Öğrenme Kapasitesini Artıran Yeni Yöntem: SPS

Araştırmacılar, büyük dil modellerinin pekiştirmeli öğrenme sürecinde karşılaştığı temel bir sorunu çözen yeni bir yöntem geliştirdi. SPS (Steering Probability Squeezing) adı verilen bu yaklaşım, yapay zekanın farklı çözüm yollarını keşfetme yeteneğini önemli ölçüde geliştiriyor. Geleneksel pekiştirmeli öğrenmede modeller, yüksek ödüllü tek bir çözüm yoluna odaklanarak diğer alternatif stratejileri göz ardı etme eğiliminde. Bu durum, modelin genel performansını sınırlıyor ve çeşitli senaryolarda başarı şansını düşürüyor. Yeni yöntem, konvansiyonel pekiştirmeli öğrenmeyi ters pekiştirmeli öğrenme ile birleştirerek bu problemi aşıyor. SPS, modelin olasılık dağılımını yeniden şekillendirerek daha geniş bir keşif alanı yaratıyor. Bu sayede yapay zeka, tek bir doğru cevaba takılıp kalmak yerine, farklı düşünce rotalarını deneyimleyebiliyor. Gelişme, özellikle karmaşık muhakeme gerektiren görevlerde yapay zeka performansının artırılması açısından önemli.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Paralel Test Zamanı Ölçeklendirme Yaklaşımında Yeni Yöntem

Araştırmacılar, büyük dil modellerinin performansını artırmak için kullanılan paralel test zamanı ölçeklendirme (TTS) yaklaşımını, gizli muhakeme modellerine uyarladı. Geleneksel yöntemler, birden fazla düşünce zinciri oluşturup sonuçları oylamayla birleştirirken, yeni yaklaşım sürekli vektör uzayında çalışan modeller için tasarlandı. Ekip, Monte Carlo Dropout ve Gaussian Gürültü ekleme gibi belirsizlik temelli örnekleme stratejileri geliştirdi. Ayrıca, adım adım karşıtsal öğrenme ile eğitilen Gizli Ödül Modeli (LatentRM) sayesinde farklı çözüm yollarını daha etkili bir şekilde değerlendirip birleştirebildi. Bu yenilik, yapay zeka sistemlerinin muhakeme yeteneklerini geliştirirken hesaplama verimliliğini de artırıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerini Küçültme Yöntemleri Kapsamlı Olarak Karşılaştırıldı

Büyük dil modellerinin pratik kullanımda karşılaştığı boyut sorunu için geliştirilen üç temel sıkıştırma yöntemini karşılaştıran yeni bir çalışma, önemli bulgular ortaya koyuyor. UniComp adı verilen değerlendirme çerçevesi ile budama, kuantizasyon ve bilgi damıtma teknikleri performans, güvenilirlik ve verimlilik açısından incelendi. Araştırma, sıkıştırma işlemlerinin modellerin bilgi hatırlama yeteneğini koruduğunu ancak çok adımlı muhakeme, çok dilli işleme ve talimat takip etme becerilerini olumsuz etkilediğini gösteriyor. Ayrıca, bir modelin performansını koruması onun güvenilirliğini de koruyacağı anlamına gelmediği ortaya çıkıyor. Bu bulgular, AI modellerinin gerçek dünya uygulamalarında nasıl optimize edilmesi gerektiği konusunda yeni perspektifler sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri yazım hatalarına ne kadar dayanıklı?

Araştırmacılar, günlük hayatta sıkça karşılaştığımız yazım hatalarının büyük dil modellerinin performansını nasıl etkilediğini inceledi. MulTypo adlı yeni bir algoritma geliştiren bilim insanları, farklı dillerdeki klavye düzenlerine ve yazım alışkanlıklarına dayalı gerçekçi hatalar üretti. 18 farklı açık kaynak modeli test ettikleri çalışmada, yazım hatalarının özellikle yaratıcı görevlerde ve mantıksal çıkarım gerektiren işlemlerde performansı ciddi şekilde düşürdüğünü keşfetti. Bulgular, yapay zeka sistemlerinin gerçek dünya uygulamalarında karşılaşabileceği zorluklara ışık tutuyor. Doğal dil anlama görevlerinin nispeten daha dirençli olduğu, ancak matematiksel muhakeme ve çeviri gibi alanlarda sorunların daha belirgin hale geldiği gözlemlendi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Althea: İnsan ve AI İşbirliğiyle Yanlış Bilgiyle Mücadelede Yeni Dönem

Araştırmacılar, çevrimiçi yanlış bilgiyle mücadelede devrim yaratabilecek Althea adlı yeni bir sistem geliştirdi. Bu hibrit yaklaşım, yapay zekanın hızını insan muhakemesinin güvenilirliğiyle birleştiriyor. Sistem, kullanıcıların iddiaları değerlendirmesine yardımcı olmak için soru üretimi, kanıt toplama ve yapılandırılmış mantık yürütme süreçlerini entegre ediyor. AVeriTeC benchmark testlerinde standart doğrulama sistemlerini geride bırakan Althea, 963 katılımcılı kullanıcı çalışmasında da umut verici sonuçlar gösterdi. Geleneksel otomatik sistemlerin şeffaflık eksikliği ve insan doğrulamasının yavaşlığı sorunlarına çözüm arayan bu yaklaşım, internetteki bilgi kirliliğine karşı yeni bir strateji sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Sağduyu Değerlendirmesinde Yenilikçi Yöntem Geliştirildi

Araştırmacılar, yapay zeka modellerinin sağduyu düzeyini ölçmek için ComPaSS adlı yeni bir yöntem geliştirdi. Bu yaklaşım, cümlelere sağduyu bilgisi eklendiğinde ortaya çıkan anlam kaymasını ölçerek makul ve makul olmayan durumları ayırt ediyor. Makul durumlar minimal anlam kaymasına, makul olmayan durumlar ise büyük sapmalara neden oluyor. Büyük dil modelleri ve görsel-dil modellerinde yapılan testler, ComPaSS'ın mevcut yöntemlerden daha başarılı olduğunu gösteriyor. Araştırma, yapay zeka sistemlerinin insan benzeri muhakeme yapabilme kapasitelerinin değerlendirilmesinde önemli bir adım olarak görülüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Açıklamalarında İnsan Tutarsızlığının Gizemi Çözülüyor

Araştırmacılar, doğal dil anlama sistemlerinde insan değerlendirmelerin neden farklılık gösterdiğini açıklama tabanlı yöntemlerle inceliyor. Çalışma, aynı metni okuyan farklı kişilerin hem etiketleme hem de açıklama konusunda nasıl ayrı sonuçlara vardığını analiz ediyor. LiTEx taksonomisi kullanılarak yapılan araştırma, sadece aynı sonuca farklı yollardan varan değerlendirmeleri değil, tamamen farklı sonuçlara ulaşan durumları da mercek altına alıyor. Bu yaklaşım, yapay zeka sistemlerinin insan benzeri muhakeme yeteneklerini geliştirmek için kritik önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

MASPO: Yapay Zeka Modellerinin Öğrenme Sürecini Üç Boyutta İyileştiren Yeni Yöntem

Araştırmacılar, büyük dil modellerinin (LLM) akıl yürütme kabiliyetlerini geliştirmek için MASPO adlı yeni bir algoritma geliştirdi. Mevcut takviyeli öğrenme yöntemlerinin üç temel sorunu tespit eden bilim insanları, bu sorunları çözmek için birleşik bir çerçeve önerdi. MASPO, gradyan kullanımını optimize ederek, olasılık dağılımını dengeleyerek ve sinyal güvenilirliğini artırarak yapay zeka modellerinin daha az veriyle daha etkili öğrenmesini sağlıyor. Bu gelişme, AI'ın muhakeme yeteneklerini artırma konusunda önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık Bilgi Grafleriyle Daha Doğru Cevaplar Üretiyor

Araştırmacılar, büyük dil modellerinin gerçek bilgilere dayalı cevaplar üretmesini sağlayan yeni bir yöntem geliştirdi. fs1 adlı bu teknik, yapay zeka modellerinin muhakeme süreçlerini bilgi graflarındaki doğrulanmış bilgi yollarıyla destekleyerek çalışıyor. Sekiz farklı dil modeli üzerinde yapılan testlerde, bu yöntemle eğitilen modeller karmaşık sorularda geleneksel yaklaşımlardan yüzde 6-14 daha başarılı oldu. Özellikle çoklu adım gerektiren sorularda ve sayısal cevaplarda belirgin iyileşme görüldü. Yöntem, 3900 doğrulanmış muhakeme örneği kullanarak modelleri eğitiyor ve 23.900 sorudan oluşan altı farklı veri setinde test edildi. Bulgular, küçük dil modellerinin bu yaklaşımdan en fazla yarar sağladığını gösteriyor.

arXiv (CS + AI) 1