DORA Explorer: Eğitim Gerektirmeden Yapay Zeka Ajanlarının Keşif Yeteneklerini Artırıyor

Büyük dil modelleri (LLM'ler) karar verme süreçlerinde hâlâ çeşitliliği sağlamakta zorlanıyor ve bu durum yetersiz keşif, yerel optimumlarda takılma gibi sorunlara yol açıyor. Araştırmacılar, Multi-Armed Bandit ve metin macera oyunları gibi ortamlarda mevcut çözüm stratejilerinin yetersiz kaldığını tespit etti. Sıcaklık ölçekleme gibi yöntemler token düzeyinde rastgelelik sağlasa da sekans düzeyinde yeterli çeşitliliği üretemiyor. Chain-of-Thought ve Tree-of-Thought gibi popüler yöntemler de güçlü keşif için yetersiz kalıyor. Bu sorunları çözmek için geliştirilen DORA Explorer, eğitime ihtiyaç duymayan ve eylem çeşitliliği odaklı sıralama yapan yenilikçi bir çerçeve sunuyor.

Yapay zeka alanında büyük dil modellerinin (LLM) karar verme süreçlerindeki sınırlılıkları, araştırmacıları yeni çözümler aramaya yöneltiyor. Son dönemde yapılan bir araştırma, LLM ajanlarının keşif yeteneklerindeki kritik eksiklikleri gözler önüne seriyor.

Araştırmacılar, mevcut LLM'lerin ardışık karar verme süreçlerinde yeterince çeşitli çıktılar üretemediğini ve bunun sonucunda yetersiz keşif, yerel optimum çözümlerde takılma ve döngüsel davranışlar sergilediğini ortaya koydu. Bu durum, özellikle aktif keşif gerektiren ortamlarda bilgi toplama ve karar verme süreçlerini olumsuz etkiliyor.

Klasik Multi-Armed Bandit problemi ve TALES (Text Adventure Learning Environment Suite) metin macera ortamlarında yapılan analizler, mevcut çözüm stratejilerinin yetersizliğini açık şekilde gösteriyor. Sıcaklık ölçekleme gibi örnekleme yöntemleri token düzeyinde rastgelelik sağlasa da, sekans düzeyinde gerekli çeşitliliği üretmekte başarısız oluyor.

Chain-of-Thought ve Tree-of-Thought gibi bilinen yöntemler de güçlü keşif için yeterli performans gösteremiyor. Bu sorunları çözmek için geliştirilen DORA Explorer (Diversity-Oriented Ranking of Actions), eğitim gerektirmeden LLM ajanlarının keşif yeteneklerini artıran yenilikçi bir çerçeve sunuyor. Bu yaklaşım, eylem çeşitliliği odaklı sıralama yaparak daha etkili keşif stratejileri geliştirmeyi hedefliyor.