Yapay zeka dünyasında büyük dil modellerinin performansını koruyarak boyutlarını küçültme yarışı kızışıyor. Araştırmacılar, bu zorlu probleme yenilikçi bir çözüm getiren Branch-Merge damıtma tekniğini geliştirdi.
Bu devrim niteliğindeki yöntem iki aşamada çalışıyor. İlk aşama olan 'Dallanma Fazı'nda, büyük öğretmen modelden gelen bilgi seçici bir şekilde uzmanlaşmış öğrenci modellere aktarılıyor. Bu süreç, alan-özel denetimli ince ayar tekniklerini kullanarak gerçekleştiriliyor. İkinci aşama 'Birleştirme Fazı'nda ise bu uzman modeller bir araya getirilerek çapraz alan bilgi transferi sağlanıyor.
Araştırmacılar, DeepSeek-R1 modelini öğretmen olarak kullanarak bu tekniği test ettiler. Ortaya çıkan TinyR1-32B-Preview modeli, mevcut DeepSeek-R1-Distill-Qwen-32B modelini birden fazla kıyaslama testinde geride bıraktı.
Bu başarı, yapay zeka modellerinin daha verimli hale getirilmesinde önemli bir adım teşkil ediyor. Küçük ama güçlü modeller, hesaplama kaynaklarının daha az kullanılması anlamına geliyor ve bu da AI teknolojilerinin daha geniş kitlelere ulaşmasının önünü açıyor.