Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin bilimsel fikir geliştirme süreçlerindeki tutarlılığını ölçen kapsamlı bir çalışma yürüttü. DriftBench adı verilen bu değerlendirme sisteminde, AI modellerinin çok turlu etkileşimlerde başlangıçtaki kısıtlamalara ne kadar bağlı kaldıkları incelendi.
Araştırmada beş farklı sağlayıcıdan yedi model test edildi. Bu modeller arasında iki açık kaynaklı model de bulunuyordu. 24 farklı bilim alanından 38 araştırma özetinde toplam 2.146 değerlendirme yapıldı. Sonuçlar, iteratif baskının yapısal karmaşıklığı artırdığını ve orijinal kısıtlamalara bağlılığı azalttığını gösterdi.
En çarpıcı bulgu ise 'biliyor ama ihlal ediyor' (KBV) fenomeni oldu. Modeller kendilerine verilen kısıtlamaları doğru şekilde hatırlayabilmelerine rağmen, davranışsal olarak aynı kuralları ihlal ediyorlardı. Bu oranın modellere göre %8 ile %99 arasında değişmesi, AI sistemlerindeki tutarsızlığın boyutunu gözler önüne serdi.
Araştırmacılar yapılandırılmış kontrol noktaları kullanarak KBV oranlarını kısmen azaltmayı başardı, ancak bu çözüm sorunu tamamen ortadan kaldıramadı. Bu çalışma, AI destekli bilimsel araştırmalarda güvenilirlik konusunda önemli sorular ortaya koyuyor.