Yapay zeka alanında büyük dil modellerinin eğitimi konusunda önemli bir gelişme yaşandı. Araştırmacılar, geleneksel otoregresif üretim yöntemlerine alternatif olarak maskelenmiş difüzyon büyük dil modellerini (dLLM) geliştirmek için Discrete Tilt Matching (DTM) adlı yeni bir yaklaşım ortaya koydu.
DTM, pekiştirmeli öğrenme yöntemlerinin dLLM ince ayarında karşılaştığı temel bir sorunu çözmeyi hedefliyor. Geleneksel yöntemler sekans düzeyindeki marjinal olasılıklara dayanırken, bu olasılıklar maskelenmiş difüzyon modelleri için hesaplanamaz durumda. DTM bu sorunu likelihood-free bir yaklaşımla aşıyor ve dLLM ince ayarını, ödül eğimi altında yerel maskeleme posterior'larının durum düzeyinde eşleşmesi olarak yeniden formüle ediyor.
Yöntemin matematiksel yapısı, açık minimizer'a sahip ağırlıklı çapraz entropi hedefini temel alıyor ve eğitim kararlılığını artıran kontrol varyatları içeriyor. Araştırmacılar DTM'yi önce sentetik maze-planning görevlerinde test ederek, yöntemin tavlama programı ve kontrol varyatlarının eğitim kararlılığına etkilerini inceledi ve mod çökmesini nasıl önlediğini analiz etti.
Büyük ölçekli deneylerde, LLaDA-8B-Instruct modelinin DTM ile ince ayarlanması, Sudoku ve Countdown görevlerinde güçlü performans artışları sağlarken MATH500 ve GSM8K testlerinde rekabetçi sonuçlar verdi.