Dezenformasyonun hızla yayıldığı günümüzde, güvenilir haber doğrulama araçlarına duyulan ihtiyaç her geçen gün artıyor. Özellikle Hindi gibi teknolojik açıdan yetersiz kaynaklara sahip diller, bu konuda büyük zorluklar yaşıyor. Araştırmacılar, bu soruna çözüm bulmak için Direct Preference Optimization (DPO) ve müfredat öğrenmesi teknolojilerini birleştiren yenilikçi bir yaklaşım geliştirdi.
Sistem, makine tarafından üretilen açıklamaları insan mantık yürütme süreçleriyle uyumlu hale getirmek için özel bir eğitim süreci kullanıyor. Güvenilir kaynaklardan elde edilen doğru açıklamalar 'tercih edilen yanıtlar' olarak değerlendirilirken, büyük dil modellerinin yetersiz çıktıları da sistemin sınırlarını göstermek ve öğrenme sürecini desteklemek amacıyla kullanılıyor.
Araştırmacılar, DPO kayıp fonksiyonuna 'Gerçeklik' ve 'İncelik' olmak üzere iki önemli parametre ekledi. Bu parametreler, açıklama kalitesini ve tutarlılığını artırmaya odaklanıyor. Mistral, Llama ve Gemma gibi büyük dil modelleri ile mBART ve mT5 gibi çok dilli modeller üzerinde yapılan deneyler, bu yaklaşımın başarılı olduğunu gösterdi.
Bu ölçeklenebilir çözüm, sadece Hindi için değil, benzer kaynak kısıtları yaşayan diğer diller için de umut vaat ediyor.