"tokenizasyon" araması — BilimKapsül

...

Arama Sonuçları

7 haber

Teknoloji & Yapay Zeka

Yapay Zeka Kod Asistanları Gizli Bilgileri Nasıl Sızdırıyor?

Yapay zeka destekli kod yazma araçları, yazılım geliştiricilerin hayatını kolaylaştırırken beklenmedik bir güvenlik riski yaratıyor. Araştırmacılar, büyük dil modellerinin kod yazmak için kullandığı tokenizasyon yönteminin, API anahtarları ve şifreler gibi gizli bilgileri ezberlemesini kolaylaştırdığını keşfetti. Bu durum, modellerin eğitim sırasında karşılaştığı hassas verileri istemeden hatırlayıp paylaşmasına yol açıyor. Özellikle karakter düzeyinde karmaşık görünen ancak token düzeyinde basit olan gizli bilgilerin daha kolay ezberlendiği ortaya çıktı. Bu keşif, AI kod asistanlarının siber güvenlik açısından yeniden değerlendirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) · 23 gün önce

Teknoloji & Yapay Zeka

Büyük Dil Modellerinde Token Adaletsizliği: Latin Olmayan Alfabeler Dezavantajda

Araştırmacılar, ChatGPT gibi büyük dil modellerinin farklı dilleri işlerken ciddi bir adaletsizlik sergilediğini ortaya koydu. Latin alfabesi dışındaki yazı sistemlerini kullanan diller, aynı anlamı ifade etmek için çok daha fazla token tüketiyor. Bu durum, bu dillerdeki kullanıcılar için daha yüksek maliyet ve yavaş yanıt süresi anlamına geliyor. Token parçalanması olarak adlandırılan bu sorun, modern açık kaynak dil modellerinde bile devam ediyor. Çalışma, kelime dağarcığı genişletme yoluyla bu soruna çözüm arayan yeni bir yorumlanabilirlik tabanlı yaklaşım sunuyor.

arXiv (Dilbilim & NLP) · 23 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Dil Modellerinin Kelime Hazinesi Devrim Yaratacak Yöntemle Sıkıştırılıyor

Araştırmacılar, büyük dil modellerinin kelime hazinesini radikal şekilde yeniden yapılandıran 'Vocab Diet' adlı yenilikçi bir yöntem geliştirdi. Bu teknik, 'yürü', 'yürüdü', 'yürüyor' gibi aynı kelimenin farklı çekimlerini ayrı kelimeler olarak saklamak yerine, temel kelime formları ve dönüşüm vektörleri kullanarak birleştiriyor. Yöntem, kelime çeşitliliğini artırırken çok dilli desteği güçlendiriyor ve mevcut modellerin donuk tutularak sadece küçük adaptör katmanlarının eğitilmesiyle hafif bir çözüm sunuyor. Bu yaklaşım, yapay zeka modellerinin daha verimli çalışmasını sağlayarak hem bellek kullanımını optimize ediyor hem de daha geniş kelime kapsamı sunuyor.

arXiv (CS + AI) · 23 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Kelimelerin Sesini Duymuyor: Çözüm Önerisi Geldi

Dil modelleri metni anlamlandırırken ilk adım olarak kelimeleri parçalara böler, ancak bu işlem kelimelerin sesli yapısını hiç dikkate almaz. Araştırmacılar, bu durumun modellerin fonolojik bilgiyi - yani kelimelerin ses yapısını - öğrenmesini nasıl engellediğini ortaya koydu. Alt-kelime tabanlı tokenizasyonun hem yerel (kafiye gibi) hem de genel (hece yapısı gibi) ses özelliklerinin kodlanmasını sistematik olarak zayıflattığı bulundu. Çalışmada, modelin tokenizasyonu ile kelimelerin doğal hece sınırları arasındaki uyumsuzluğu ölçen STAD metriği geliştirildi. Uyumsuzluk arttıkça fonolojik temsil kalitesinin düştüğü gözlemlendi. Bu sorunu çözmek için araştırmacılar, Uluslararası Fonetik Alfabe (IPA) tabanlı hafif bir ince ayar yöntemi önerdi. Bu yaklaşım, dil modellerine fonolojik farkındalık kazandırarak tutarlı iyileşmeler sağladı.

arXiv (CS + AI) · 23 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modelleri İçin Yeni Sayı İşleme Yöntemi: Üçlü Grup Sistemi

Araştırmacılar, büyük dil modellerinin sayısal işlemlerdeki zayıflığını gidermek için yeni bir tokenizasyon yöntemi geliştirdi. Triadic Suffix Tokenization (TST) adı verilen bu sistem, sayıları üçlü gruplara bölerek her gruba açık büyüklük işaretleyicileri ekliyor. Geleneksel yöntemler sayıları tutarsız parçalara böldüğü için modeller pozisyonel yapıyı kaybediyor ve aritmetik hatalar yapıyordu. Yeni sistem binler, milyonlar gibi tam sayı büyüklükleri ile ondalık derinlikleri için paralel işaretleyici kullanıyor. Bu deterministik yaklaşım, pozisyonel çıkarıma dayalı mevcut yöntemlerin aksine tutarlı gradyan sinyali sağlayarak kararlı öğrenme garantiliyor. İki uygulama varyantı sunuluyor: mevcut kelime dağarcığına en fazla 10.000 sabit token ekleyen sözlük tabanlı yaklaşım ve daha esnek alternatif.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Görüntü Üretiminde Yeni Token Düzenleme Yöntemi Keşfedildi

Araştırmacılar, yapay zeka modellerinin görüntü üretme sürecinde kullandığı token yapılarının nasıl optimize edilebileceğini araştırdı. Geleneksel 2D ızgara sistemi yerine, kaba detaydan ince detaya doğru çalışan 1D sıralı token sisteminin, test aşamasında çok daha etkili sonuçlar verdiği keşfedildi. Bu yenilikçi yaklaşım, ara aşamalardaki durumların anlamlı bilgi taşımasını sağlayarak, doğrulama algoritmalarının daha güvenilir değerlendirmeler yapmasına olanak tanıyor. Bulgular, gelecekte daha akıllı ve kontrol edilebilir görüntü üretim sistemlerinin geliştirilmesi için önemli bir adım oluşturuyor.

arXiv (CS + AI) · 24 gün önce