"GPT" için 44 sonuç bulundu
× Aramayı temizle
Arama Sonuçları
44 haber
Portekizce için Geliştirilen NorBERTo Yapay Zeka Modeli 331 Milyar Token ile Eğitildi
Brezilya'daki araştırmacılar, Portekizce doğal dil işleme alanında çığır açan yeni bir yapay zeka modeli geliştirdi. NorBERTo adlı bu model, ModernBERT mimarisine dayalı olarak tasarlandı ve Aurora-PT adı verilen dev bir Portekizce veri kümesi ile eğitildi. Bu veri kümesi, çeşitli web kaynaklarından toplanan 331 milyar GPT-2 token içeriyor. Model, metin benzerliği, mantıksal çıkarım ve sınıflandırma görevlerinde test edildiğinde, özellikle PLUE ve ASSIN 2 benchmark testlerinde kayda değer başarılar elde etti. NorBERTo-large versiyonu, değerlendirilen kodlayıcı modeller arasında en iyi performansı göstererek Portekizce NLP uygulamaları için önemli bir adım teşkil ediyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce
0
Yapay Zeka Neden Stratejik Oyunlarda Başarısız Oluyor? İç Mekanizmalar Araştırıldı
Büyük dil modelleri müzakere ve politika yapımı gibi eksik bilgilerle stratejik karar verme görevlerinde sıklıkla kullanılıyor. Ancak bu modellerin beklenmedik başarısızlıkları var. Yeni bir araştırma, Llama 3.1, Qwen3 ve GPT-OSS modellerini inceleyerek bu başarısızlıkların nedenlerini ortaya çıkardı. Çalışma, yapay zekanın gözlem yapma, inanç oluşturma ve eylem alma süreçleri arasında iki kritik boşluk tespit etti. Birincisi, modellerin gerçekte sahip oldukları inançlar ile sözel olarak ifade ettikleri arasındaki tutarsızlık. İkincisi ise iç inançları eylemlere dönüştürmedeki zayıflık. Bu bulgular, AI sistemlerinin stratejik düşünme yeteneklerini geliştirmek için önemli ipuçları sunuyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce
0
Küçük AI modelleri büyük görevlerde ne kadar başarılı? AgentFloor testi açıklıyor
Araştırmacılar, yapay zeka sistemlerinde hangi görevlerin büyük modeller gerektirdiğini, hangilerinin küçük modellerle halledilebileceğini belirlemek için AgentFloor adlı yeni bir değerlendirme sistemi geliştirdi. 30 farklı görevi içeren altı kademeli bu test, 0,27 milyardan 32 milyar parametreye kadar 16 farklı açık kaynak modeli GPT-5 ile karşılaştırdı. Bulgular, kısa vadeli ve yapılandırılmış araç kullanımı gerektiren işlerin çoğunun küçük ve orta ölçekli modellerle başarıyla yapılabileceğini gösterdi. Bu sonuçlar, AI sistemlerinin daha verimli tasarlanması ve maliyetlerin optimize edilmesi açısından önemli pratik değer taşıyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce
0
Mobil Cihazlar için Yeni AI Dil İşleme Algoritması Hızı İkiye Katladı
Araştırmacılar, mobil cihazlarda yapay zeka dil modellerinin çalışmasını hızlandıran yeni bir algoritma geliştirdi. Peek2 adlı bu sistem, GPT-3 ve LLaMA-3 gibi popüler AI modellerinde kullanılan metin işleme sürecini optimize ediyor. Geleneksel yöntemlerin aksine regex kullanmayan bu yaklaşım, daha az bellek tüketirken performansı 2,5 kata kadar artırabiliyor. Mobil ve kenar bilişim cihazlarında AI uygulamalarının daha verimli çalışması için kritik bir gelişme olan bu çalışma, büyük dil modellerinin günlük hayatta daha yaygın kullanılmasının önünü açabilir.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce
1
Yapay zeka modelleri stres altında insanlar gibi düşünüyor
Araştırmacılar, GPT-4o ve diğer dil modellerinin bilişsel kaynaklarının kısıtlandığında cümle anlama stratejilerinin nasıl değiştiğini inceledi. İkili görev paradigması adı verilen yöntemle modellere aynı anda matematik ve dil anlama görevleri verildi. Sonuçlar, bu stresli koşullarda yapay zeka modellerinin insanlara benzer şekilde mantıklı çıkarım stratejilerine yöneldiğini gösterdi. Modeller, mantıklı cümleler ile mantıksız cümleler arasında daha belirgin doğruluk farkları sergilemeye başladı. Bu bulgular, yapay zekanın insan benzeri bilişsel davranışlar gösterebilmesi için kaynak kısıtlamalarının önemini ortaya koyuyor.
arXiv (Dilbilim & NLP) · 14 gün önce
0
AI Ajanları Tedarik Zinciri Simülasyonunda İnsan Davranışlarını Taklit Ediyor
Araştırmacılar, büyük dil modellerini kullanarak çok aşamalı tedarik zinciri dinamiklerini simüle eden yenilikçi bir deneysel paradigma geliştirdi. DeepSeek ve GPT ajanlarının farklı akıl yürütme seviyelerinde kullanıldığı bu çalışma, bilişsel çeşitliliğin ajan etkileşimleri üzerindeki etkisini inceliyor. Geleneksel davranışsal deneylerin ölçeklenebilirlik sınırlarını aşan bu yaklaşım, yapay zeka ve operasyon yönetimi alanlarında önemli bir ilerleme sunuyor. Sonuçlar, ajanların miyopik ve kişisel çıkar odaklı davranışlar sergilediğini gösteriyor. Bu çalışma, karmaşık karar verme süreçlerinde AI ajanları arasındaki koordinasyonu modellemek için yeni bir yol açıyor ve tedarik zinciri verimsizliklerinin arkasındaki bilişsel önyargıları anlamak için ölçeklenebilir bir yöntem sunuyor.
arXiv (CS + AI) · 23 gün önce
0
FaithLens: Yapay zekanın yanlış bilgilerini tespit eden yeni model
Büyük dil modellerinin ürettiği yanlış ve tutarsız bilgileri tespit etmek, günümüzde kritik bir sorun haline geldi. Araştırmacılar, bu soruna çözüm olarak FaithLens adlı yeni bir model geliştirdi. Bu sistem, yapay zekanın güvenilir olmayan çıktılarını sadece tespit etmekle kalmıyor, aynı zamanda neden yanlış olduğunu da açıklayabiliyor. Model, özellikle bilgi arama sistemleri ve metin özetleme gibi kritik uygulamalarda büyük önem taşıyor. 8 milyar parametreli FaithLens, 12 farklı görevde test edildi ve GPT gibi gelişmiş modelleri bile geride bıraktı. Sistem, maliyet açısından da verimli bir çözüm sunuyor.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Modellerinde Durum Transferi ve Yeniden Kullanım Mekanizması Keşfedildi
Araştırmacılar, yapay zeka modellerinin davranışlarını değiştiren prompt tabanlı müdahalelerin nasıl çalıştığını daha iyi anlayabilmek için yeni bir yöntem geliştirdi. GPT-2 ve Qwen modelleri üzerinde yapılan deneyler, modellerin öğrendiği bilgileri farklı görevlerde nasıl yeniden kullandığını ortaya koyuyor. Çalışma, kontrollü yönlendirme görevlerinde 'durum transferi' adı verilen mekanizmayı inceliyor ve modellerin davranışsal olarak önemli bilgileri nerede sakladığını tespit etmeye odaklanıyor. Bulgular, sabit arayüz yeniden kullanımı ile prompt yeniden konumlandırması arasındaki farkı net bir şekilde gösteriyor. Bu keşif, yapay zeka modellerinin iç işleyişini anlamak ve daha verimli model tasarımları geliştirmek açısından önemli.
arXiv (CS + AI) · 23 gün önce
0
Multimodal AI modelleri temel matematikte neden başarısız oluyor?
Stanford araştırmacıları, gelişmiş çok modallı yapay zeka modellerinin görsel, işitsel ve metin tabanlı matematik problemlerinde beklenmedik zorluklarla karşılaştığını ortaya çıkardı. GPT-4V, Claude-3 ve Gemini gibi modeller, sayıları farklı formatlarda algılayabilmesine rağmen çok basamaklı çarpma işlemlerinde ciddi hatalar yapıyor. Araştırma, aynı matematik probleminin rakam, kelime, görsel veya ses formatında sunulmasına göre model performansının dramatik şekilde değiştiğini gösteriyor. Bu bulgular, AI modellerinin gerçek aritmetik yeteneklerinin sanıldığından çok daha sınırlı olduğunu ve farklı modaliteler arasında tutarsız davranış sergilediklerini işaret ediyor.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Modellerinin Eğitimi İçin Yenilikçi Matris Optimizasyon Yöntemi
Araştırmacılar, yapay sinir ağlarının eğitimi için düşük-rankli ortogonalizasyon adı verilen yeni bir yöntem geliştirdi. Bu yaklaşım, sinir ağı parametrelerinin matris yapısını göz önünde bulundurarak optimizasyon sürecini iyileştiriyor. Geliştirilen yöntem, özellikle büyük dil modelleri olan GPT-2 ve LLaMA gibi temel modellerin eğitiminde önemli performans artışları sağlıyor. Yeni teknik, gradyanların düşük-rankli doğasından yararlanarak matris ortogonalizasyonu gerçekleştiriyor ve mevcut Muon optimizatörünün geliştirilmiş bir versiyonunu sunuyor. Bu gelişme, yapay zeka modellerinin daha verimli eğitilmesi için önemli bir adım teşkil ediyor.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Modelleri Artık Daha Az Hesaplama Gücüyle Akıllıca Düşünebiliyor
Araştırmacılar, büyük dil modellerinin sınırlı hesaplama kaynaklarıyla daha verimli düşünme yetisi geliştirmesini sağlayan yeni bir sistem geliştirdi. 'Anytime reasoning' adı verilen bu yaklaşım, modellerin verilen süre içinde en iyi çözümü üretmesini hedefliyor. Sistem, modellerin kendi çıktılarından öğrenerek kendilerini geliştirmesine olanak tanıyan bir yöntem kullanıyor. Seyahat planlaması gibi gerçek dünya uygulamalarında test edilen yaklaşım, GPT ve LLaMA gibi popüler modellerde hem kalite hem de verimlilik açısından iyileştirmeler sağladı. Bu gelişme, yapay zekanın pratik kullanımında maliyet ve hız dengesini optimize etmek için önemli bir adım.
arXiv (CS + AI) · 23 gün önce
0