Araştırmacılar, yapay zeka sistemlerinin çevrimdışı öğrenmesinde karşılaştıkları temel bir geometrik sorunu çözen yeni bir yöntem geliştirdi. Fisher Decorator adı verilen bu yaklaşım, akış tabanlı politika öğrenmesindeki verimsizlikleri gideriyor. Mevcut yöntemler, davranış politikalarının doğal anizotropik yapısını göz ardı ederek izotropik düzenleme kullanıyordu. Bu durum, optimizasyonda yanlış yönlere gidilmesine neden oluyordu. Yeni yöntem, politika iyileştirmesini yerel taşıma haritası olarak formüle ederek bu sorunu çözüyor. Başlangıç akış politikasına artık bir yer değiştirme ekleyerek daha etkili öğrenme sağlıyor. Bu gelişme, özellikle robotik ve otonom sistemlerin öğrenme süreçlerinde önemli iyileştirmeler getirebilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Kendi Bilgi Haritasını Çiziyor: AutoGraph-R1 Devri

Araştırmacılar, yapay zekanın soru-cevap sistemlerinde kullandığı bilgi graflarını otomatik olarak oluşturabilen AutoGraph-R1 adlı yeni bir framework geliştirdi. Bu sistem, geleneksel yöntemlerin aksine, bilgi graflarını son kullanım amacına göre optimize ediyor. Pekiştirmeli öğrenme tekniklerini kullanan AutoGraph-R1, büyük dil modellerini eğiterek grafik oluşturma sürecini bir politika öğrenme problemi olarak ele alıyor. Sistem, grafiğin işlevsel faydasına göre ödül alarak kendini geliştiriyor ve farklı soru-cevap benchmark'larında önemli performans artışları sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Politika Öğrenmesinde Yalnızca Pozitif Örneklerle Eğitim Yöntemi

Araştırmacılar, çevrimiçi pekiştirmeli öğrenmede geleneksel yöntemlerin sınırlarını aşan yeni bir yaklaşım geliştirdi. PODPO adı verilen bu yöntem, yalnızca başarılı örneklerden öğrenerek yapay zeka sistemlerinin daha etkili karar verme politikaları geliştirmesini sağlıyor. Geleneksel yöntemler hem olumlu hem olumsuz örnekleri kullanarak hata düzeltmeye odaklanırken, yeni yaklaşım proaktif hata önlemeyi benimsiyor. Bu, özellikle robotik ve otonom sistemler gibi gerçek zamanlı karar verme gerektiren alanlarda önemli avantajlar sunabilir. Yöntemin en dikkat çekici özelliği, karmaşık matematiksel kısıtlamalar olmadan çalışabilmesi ve yüksek getirili eylem bölgelerine doğru daha doğal bir yönlendirme sağlaması.

arXiv (Robotik) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Ajanları Artık Kendi Kurallarını Öğrenebiliyor

Araştırmacılar, yapay zeka ajanlarının organizasyonel politikaları daha iyi anlayabilmesi için yeni bir hafıza mekanizması geliştirdi. PolicyBank adı verilen bu sistem, belirsiz veya eksik kurallara sahip politikaları etkileşim yoluyla öğrenerek kendi anlayışını geliştirebiliyor. Geleneksel sistemler kuralları değişmez kabul ederken, yeni yaklaşım geri bildirimlerle politika yorumunu sürekli iyileştiriyor. Sistem, 'kurallara uygun ama yanlış' davranışları engelleyerek daha doğru karar verme sağlıyor. Araştırma, popüler bir araç çağırma ölçütünü genişleterek kontrollü test ortamı oluşturmuş ve politika boşluklarının sistematik olarak değerlendirilmesini mümkün kılmış.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Keşif Dengesinde Yeni Yaklaşım: Esnek Güçlendirme Yöntemi

Araştırmacılar, yapay zeka sistemlerinin öğrenme sürecindeki keşif-yararlanma dengesini daha esnek bir şekilde ayarlayabilen yeni bir yöntem geliştirdi. Geleneksel pekiştirmeli öğrenme yaklaşımlarında, sistemin çevresini keşfetmesi için verilen güçlendirme bonusları zaman alıcı ve ayarlaması zor süreçler gerektiriyordu. Yeni yöntem, büyük dil modellerinin eğitiminde kullanılan 'en iyi N seçimi' tekniğini güçlendirme kavramıyla birleştirerek bu sorunu çözüyor. Bu yaklaşım, yapay zeka sistemlerinin yeni durumları keşfetme ve mevcut bilgilerini kullanma arasındaki dengeyi daha hızlı ve esnek bir şekilde ayarlamalarına olanak tanıyor. Sonuç olarak, sistemler açık bir politika öğrenmeden bile davranışlarını değiştirebiliyor ve farklı görevlerde daha etkili performans sergileyebiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Algoritmaları İçin Yeni Öğrenme Sınırları Keşfedildi

Araştırmacılar, stokastik en kısa yol problemlerinde optimal politika öğrenmek için gereken minimum örnek sayısını belirleyen matematiksel sınırları ortaya çıkardı. Çalışma, yapay zeka sistemlerinin karmaşık karar verme ortamlarında ne kadar veri ile etkili öğrenebileceğini gösteren teorik alt ve üst sınırlar sunuyor. En dikkat çekici bulgu, minimum maliyetin sıfır olduğu durumlarda bazı problemlerin hiç öğrenilemeyebileceğinin kanıtlanması. Bu keşif, pekiştirmeli öğrenme alanındaki diğer problem türlerinden daha zor olan senaryoları ortaya koyuyor ve gelecekteki algoritma tasarımları için önemli kılavuzluk edecek.

arXiv (CS + AI) 0