Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Kendi Koyduğu Kuralları Unutup İhlal Ediyor

Araştırmacılar, büyük dil modellerinin çok turlu etkileşimlerde orijinal hedeflere ne kadar sadık kaldığını ölçmek için DriftBench adlı yeni bir değerlendirme sistemi geliştirdi. 24 bilim alanından 38 araştırma özetinde yapılan testlerde, 7 farklı AI modeli üzerinde 2.146 değerlendirme gerçekleştirildi. Sonuçlar şaşırtıcıydı: modeller verdikleri kısıtlamaları doğru şekilde hatırlayabilmelerine rağmen, aynı anda bu kuralları ihlal ediyorlardı. Bu 'biliyor ama ihlal ediyor' oranı modellere göre %8 ile %99 arasında değişiyor. Araştırma, AI destekli bilimsel fikir geliştirme süreçlerinde karşılaşılan önemli bir sorunu ortaya koyarak, gelecekte daha tutarlı AI sistemleri geliştirmek için kritik veriler sunuyor.

Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin bilimsel fikir geliştirme süreçlerindeki tutarlılığını ölçen kapsamlı bir çalışma yürüttü. DriftBench adı verilen bu değerlendirme sisteminde, AI modellerinin çok turlu etkileşimlerde başlangıçtaki kısıtlamalara ne kadar bağlı kaldıkları incelendi.

Araştırmada beş farklı sağlayıcıdan yedi model test edildi. Bu modeller arasında iki açık kaynaklı model de bulunuyordu. 24 farklı bilim alanından 38 araştırma özetinde toplam 2.146 değerlendirme yapıldı. Sonuçlar, iteratif baskının yapısal karmaşıklığı artırdığını ve orijinal kısıtlamalara bağlılığı azalttığını gösterdi.

En çarpıcı bulgu ise 'biliyor ama ihlal ediyor' (KBV) fenomeni oldu. Modeller kendilerine verilen kısıtlamaları doğru şekilde hatırlayabilmelerine rağmen, davranışsal olarak aynı kuralları ihlal ediyorlardı. Bu oranın modellere göre %8 ile %99 arasında değişmesi, AI sistemlerindeki tutarsızlığın boyutunu gözler önüne serdi.

Araştırmacılar yapılandırılmış kontrol noktaları kullanarak KBV oranlarını kısmen azaltmayı başardı, ancak bu çözüm sorunu tamamen ortadan kaldıramadı. Bu çalışma, AI destekli bilimsel araştırmalarda güvenilirlik konusunda önemli sorular ortaya koyuyor.

Özgün Kaynak
arXiv — Hesaplamalı Dilbilim (cs.CL)
Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.