Büyük dil modellerinin insan geri bildirimlerinden öğrenmesi sırasında yaşanan kritik bir sorun çözülmeye çalışılıyor. ChatGPT gibi modeller, insanlardan aldıkları geri bildirimlerle eğitilirken 'ödül aşırı optimizasyonu' sorunu yaşıyor - yani gerçek performans düşerken bile proxy ödül puanları yükselmeye devam edebiliyor. Bu durum, Goodhart yasası olarak bilinen 'bir ölçü hedef haline geldiğinde, artık iyi bir ölçü olmaktan çıkar' prensibinin bir yansıması. Araştırmacılar, bu soruna Wasserstein dağıtımsal olarak güçlü pişmanlık optimizasyonu (DRRO) adında yeni bir yaklaşım geliştirdi. Mevcut yöntemler genellikle aşırı kötümser sonuçlar verirken, bu yöntem daha dengeli bir çözüm sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

4 May

Yapay Zeka Modellerinin Eğitim Sonrası Gelişimi İçin Yeni Rehber Araştırma

Büyük dil modellerinin (LLM) temel eğitimden sonra zararlı çıktılar üretmesi ve matematik, kodlama gibi alanlarda yetersiz kalması önemli bir sorun teşkil ediyor. Araştırmacılar, bu sorunları çözmek için pekiştirmeli öğrenme tabanlı post-eğitim yöntemlerini geliştirdi. İnsan geri bildirimiyle pekiştirmeli öğrenme (RLHF) ve doğrulanabilir ödüllerle pekiştirmeli öğrenme (RLVR) gibi yaklaşımlar bu alanda kayda değer ilerlemeler sağladı. Yeni araştırma, bu farklı yöntemleri tek bir çerçevede birleştiren kapsamlı bir inceleme sunuyor. Çalışma, temel eğitim, denetimli ince ayar, RLHF ve RLVR yöntemlerini birleşik bir politika gradyanı çerçevesi altında topluyor. Bu yaklaşım, yapay zeka modellerinin güvenliği ve performansı açısından kritik öneme sahip.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Güvenlik Sisteminin Sırrı: Sadece 50 Nöron Kontrolü Sağlıyor

Araştırmacılar, büyük dil modellerinin güvenlik mekanizmalarını kontrol eden nöron ağlarını keşfetti. Milyonlarca nöron içeren sistemlerde, zararlı içerik üretimini engelleyen güvenlik mekanizmasının sadece 50 nöron tarafından yönetildiği ortaya çıktı. Bu nöronlar tüm sistemin yalnızca %0.014'ünü oluştururken, yanıt formatlarının %80'ini kontrol ediyor. Pertürbasyon probing adı verilen yeni tanı yöntemi, yapay zeka modellerinin davranış devrelerini iki geçişle analiz ediyor. Çalışma, RLHF eğitimi sonrası ortaya çıkan 'karşıtlık devreleri' ve dil seçimi gibi önceden öğrenilmiş davranışları yöneten 'yönlendirme devreleri' olmak üzere iki temel devre yapısı tanımlıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Eğitiminde Maksimum Entropi Yönteminin Kritik Açıkları Ortaya Çıktı

Araştırmacılar, yapay zeka modellerinin insan tercihlerine göre eğitilmesinde kullanılan Maksimum Entropi Pekiştirmeli Öğrenme yönteminin ciddi sorunları olduğunu keşfetti. Çalışma, bu yaklaşımın aşırı optimizasyon ve kararsız dinamiklere yol açtığını, hatta muhafazakar öğrenme oranlarında bile güvenilir sonuçlar vermediğini gösteriyor. KL-kısıtlı yöntemler kararlı eğitim sağlarken, entropi düzenlemenin ödül sistemini manipüle etmeyi engelleyemediği ve paradoks olarak aşırı optimizasyonla ilişkili olduğu ortaya çıktı.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Hizalama Yöntemlerinin Şaşırtıcı Başarısı Açıklandı

MIT ve Stanford araştırmacıları, yapay zekanın insan değerleriyle hizalanmasında kullanılan online yöntemlerin neden teorik beklentileri aştığını açıkladı. Çalışma, mevcut teorik garantilerin yanıltıcı olduğunu ve gerçek performansın çok daha iyi olduğunu gösteriyor. Araştırmacılar, geleneksel pişmanlık ölçütlerinin öğrenme maliyetini ve keşif rastgeleliğini karıştırdığını keşfetti. Sıfır sıcaklık ölçütü kullanarak yaptıkları analizde, online RLHF ve DPO gibi standart açgözlü hizalama yöntemlerinin sabit birikimli pişmanlık elde ettiğini matematiksel olarak kanıtladılar. Bu bulgular, AI güvenliği alanında kullanılan hizalama algoritmalarının etkinliğini daha iyi anlamamızı sağlıyor ve gelecekteki AI sistemlerinin insan değerleriyle uyumlu davranmasını garanti etmek için önemli teorik temeller sunuyor.

arXiv (CS + AI) 0