Büyük dil modellerinin kelime işleme konusundaki temel yaklaşımını değiştiren çığır açıcı bir araştırma, yapay zeka alanında yeni ufuklar açıyor. 'Vocab Diet' adı verilen bu yenilikçi yöntem, dil modellerinin kelime hazinesini radikal şekilde yeniden düzenliyor.

Geleneksel tokenizasyon algoritmaları, aynı kelimenin farklı çekimlerini (örneğin 'oku', 'okuyor', 'okudu') tamamen ayrı kelimeler olarak ele alıyor. Bu durum, sınırlı boyuttaki kelime hazinesinin büyük bölümünü yüzeysel varyasyonlarla dolduruyor ve çeşitliliği kısıtlıyor.

Araştırmacılar, kelime çekimlerinin embedding uzayında doğrusal yönler olarak kodlandığını keşfetti. Bu bulgudan hareketle, temel kelime formlarına uygulandığında uygun kelime temsilini üreten 'dönüşüm vektörleri' geliştirdiler. Sistem, her yüzey forma benzersiz token atamak yerine, bunları paylaşılan temel form ve dönüşüm vektörlerinden oluşturuyor.

Yöntemin en önemli avantajı hafifliğinde yatıyor. Önceden eğitilmiş model donuk tutulurken sadece küçük adaptör katmanları eğitiliyor. Bu yaklaşım hem bellek verimliliği sağlıyor hem de çok dilli desteği güçlendiriyor. Kelime hazinesinin kompakt yeniden şekillendirilmesi, özellikle kaynak kısıtlı ortamlarda çalışan yapay zeka uygulamaları için büyük fırsatlar sunuyor.