Yapay Zeka Modellerini Eğitmenin Yeni Yolu: Discrete Tilt Matching

Araştırmacılar, büyük dil modellerini eğitmek için yeni bir yaklaşım geliştirdi. Discrete Tilt Matching (DTM) adlı bu yöntem, geleneksel otoregresif üretim yerine maskelenmiş difüzyon modellerini kullanıyor. DTM, modellerin eğitiminde karşılaşılan matematiksel zorlukları aşmak için likelihood-free bir yöntem sunuyor. Geleneksel pekiştirmeli öğrenme yöntemlerinin aksine, DTM yerel maskeleme posterior'larının eşleşmesi üzerine kurulu. Araştırmacılar bu yöntemi sentetik maze-planning görevlerinde test ettikten sonra, LLaDA-8B-Instruct modelini DTM ile ince ayarlayarak Sudoku ve Countdown görevlerinde güçlü performans artışları elde etti. Bu gelişme, yapay zeka modellerinin daha kararlı ve etkili şekilde eğitilmesi için yeni olanaklar sunuyor.

Yapay zeka alanında büyük dil modellerinin eğitimi konusunda önemli bir gelişme yaşandı. Araştırmacılar, geleneksel otoregresif üretim yöntemlerine alternatif olarak maskelenmiş difüzyon büyük dil modellerini (dLLM) geliştirmek için Discrete Tilt Matching (DTM) adlı yeni bir yaklaşım ortaya koydu.

DTM, pekiştirmeli öğrenme yöntemlerinin dLLM ince ayarında karşılaştığı temel bir sorunu çözmeyi hedefliyor. Geleneksel yöntemler sekans düzeyindeki marjinal olasılıklara dayanırken, bu olasılıklar maskelenmiş difüzyon modelleri için hesaplanamaz durumda. DTM bu sorunu likelihood-free bir yaklaşımla aşıyor ve dLLM ince ayarını, ödül eğimi altında yerel maskeleme posterior'larının durum düzeyinde eşleşmesi olarak yeniden formüle ediyor.

Yöntemin matematiksel yapısı, açık minimizer'a sahip ağırlıklı çapraz entropi hedefini temel alıyor ve eğitim kararlılığını artıran kontrol varyatları içeriyor. Araştırmacılar DTM'yi önce sentetik maze-planning görevlerinde test ederek, yöntemin tavlama programı ve kontrol varyatlarının eğitim kararlılığına etkilerini inceledi ve mod çökmesini nasıl önlediğini analiz etti.

Büyük ölçekli deneylerde, LLaDA-8B-Instruct modelinin DTM ile ince ayarlanması, Sudoku ve Countdown görevlerinde güçlü performans artışları sağlarken MATH500 ve GSM8K testlerinde rekabetçi sonuçlar verdi.