Yapay zeka modellerinin eğitiminde çığır açan yeni optimizasyon yöntemi

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Büyük dil modellerinin eğitiminde karşılaşılan kritik bir soruna çözüm getirildi. Araştırmacılar, mevcut 'sert kırpma' yöntemlerinin keşfi kısıtladığını ve 'yumuşak kırpma' yöntemlerinin de kararsızlık yarattığını tespit etti. Geliştirilen DGPO yöntemi, olasılık gradyanlarını kullanarak bu sorunları çözerken model performansını artırıyor. Bu yenilik, yapay zekanın muhakeme yeteneklerinin geliştirilmesinde önemli bir adım.

Büyük dil modellerinin (LLM) eğitiminde kullanılan pekiştirmeli öğrenme algoritmaları, son yıllarda bu sistemlerin muhakeme yeteneklerini önemli ölçüde geliştirdi. Ancak bu süreçteki optimizasyon dinamikleri hâlâ kırılgan bir yapıya sahip.

Araştırmacılar, mevcut GRPO gibi standart algoritmaların 'sert kırpma' yöntemiyle kararlılığı sağlamaya çalıştığını, ancak bu yaklaşımın güven bölgesi dışındaki token'ların gradyanlarını atarak keşfi engellediğini ortaya koydu. Alternatif olarak geliştirilen 'yumuşak kırpma' yöntemleri ise bu gradyanları geri kazanmaya çalışırken başka bir sorunla karşılaştı: log-olasılık gradyanlarına dayanmaları, olasılıklar sıfıra yaklaştığında ıraksayan ağırlıklar üretmesine neden oluyor.

Bu soruna çözüm olarak geliştirilen Ayrıştırılmış Gradyan Politika Optimizasyonu (DGPO), log-olasılık yerine doğrudan olasılık gradyanlarını kullanarak daha istikrarlı bir yaklaşım sunuyor. Yöntem, önem örneklemesi oranlarına dayanan ayrıştırılmış bir bozunma mekanizması kullanıyor ve sınır token'larına asimetrik, sürekli bozunma uygulayarak optimizasyon sürecini iyileştiriyor.

Bu yenilik, yapay zeka modellerinin daha kararlı ve etkili bir şekilde eğitilmesini sağlarken, muhakeme yeteneklerinin geliştirilmesinde önemli bir ilerleme sunuyor.

Yapay zeka modellerinin eğitiminde çığır açan yeni optimizasyon yöntemi

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Cinsel Travma Yaşayan Kişilerde Dinsel Saflık Kültürünün Psikolojik Etkileri

Yapay zeka Turing testinde insanlardan daha 'insani' görünüyor

Yapay zeka görselleri insanlar gibi algılamıyor: Doku tanımada büyük fark keşfedildi