"RLHF" araması — BilimKapsül

...

Arama Sonuçları

5 haber

Teknoloji & Yapay Zeka

Yapay Zeka Modellerinin Eğitim Sonrası Gelişimi İçin Yeni Rehber Araştırma

Büyük dil modellerinin (LLM) temel eğitimden sonra zararlı çıktılar üretmesi ve matematik, kodlama gibi alanlarda yetersiz kalması önemli bir sorun teşkil ediyor. Araştırmacılar, bu sorunları çözmek için pekiştirmeli öğrenme tabanlı post-eğitim yöntemlerini geliştirdi. İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF) ve doğrulanabilir ödüllerle pekiştirmeli öğrenme (RLVR) gibi yaklaşımlar bu alanda kayda değer ilerlemeler sağladı. Yeni araştırma, bu farklı yöntemleri tek bir çerçevede birleştiren kapsamlı bir inceleme sunuyor. Çalışma, temel eğitim, denetimli ince ayar, RLHF ve RLVR yöntemlerini birleşik bir politika gradyanı çerçevesi altında topluyor. Bu yaklaşım, yapay zeka modellerinin güvenliği ve performansı açısından kritik öneme sahip.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 12 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Güvenlik Sisteminin Sırrı: Sadece 50 Nöron Kontrolü Sağlıyor

Araştırmacılar, büyük dil modellerinin güvenlik mekanizmalarını kontrol eden nöron ağlarını keşfetti. Milyonlarca nöron içeren sistemlerde, zararlı içerik üretimini engelleyen güvenlik mekanizmasının sadece 50 nöron tarafından yönetildiği ortaya çıktı. Bu nöronlar tüm sistemin yalnızca %0.014'ünü oluştururken, yanıt formatlarının %80'ini kontrol ediyor. Pertürbasyon probing adı verilen yeni tanı yöntemi, yapay zeka modellerinin davranış devrelerini iki geçişle analiz ediyor. Çalışma, RLHF eğitimi sonrası ortaya çıkan 'karşıtlık devreleri' ve dil seçimi gibi önceden öğrenilmiş davranışları yöneten 'yönlendirme devreleri' olmak üzere iki temel devre yapısı tanımlıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 15 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Eğitiminde Maksimum Entropi Yönteminin Kritik Açıkları Ortaya Çıktı

Araştırmacılar, yapay zeka modellerinin insan tercihlerine göre eğitilmesinde kullanılan Maksimum Entropi Pekiştirmeli Öğrenme yönteminin ciddi sorunları olduğunu keşfetti. Çalışma, bu yaklaşımın aşırı optimizasyon ve kararsız dinamiklere yol açtığını, hatta muhafazakar öğrenme oranlarında bile güvenilir sonuçlar vermediğini gösteriyor. KL-kısıtlı yöntemler kararlı eğitim sağlarken, entropi düzenlemenin ödül sistemini manipüle etmeyi engelleyemediği ve paradoks olarak aşırı optimizasyonla ilişkili olduğu ortaya çıktı.

arXiv (Dilbilim & NLP) · 16 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Hizalama Yöntemlerinin Şaşırtıcı Başarısı Açıklandı

MIT ve Stanford araştırmacıları, yapay zekanın insan değerleriyle hizalanmasında kullanılan online yöntemlerin neden teorik beklentileri aştığını açıkladı. Çalışma, mevcut teorik garantilerin yanıltıcı olduğunu ve gerçek performansın çok daha iyi olduğunu gösteriyor. Araştırmacılar, geleneksel pişmanlık ölçütlerinin öğrenme maliyetini ve keşif rastgeleliğini karıştırdığını keşfetti. Sıfır sıcaklık ölçütü kullanarak yaptıkları analizde, online RLHF ve DPO gibi standart açgözlü hizalama yöntemlerinin sabit birikimli pişmanlık elde ettiğini matematiksel olarak kanıtladılar. Bu bulgular, AI güvenliği alanında kullanılan hizalama algoritmalarının etkinliğini daha iyi anlamamızı sağlıyor ve gelecekteki AI sistemlerinin insan değerleriyle uyumlu davranmasını garanti etmek için önemli teorik temeller sunuyor.

arXiv (CS + AI) · 25 gün önce