Bir kimyasal maddenin belirli bir çözücüde ne kadar çözüneceğini tahmin etmek, ilaç sanayisinden çevre mühendisliğine kadar birçok alanda hayati önem taşıyor. Bilgisayarlı kimya alanında standart bir test haline gelen çözünürlük tahmini, son yıllarda önemli ilerlemeler kaydetse de hâlâ pratik uygulamalar için yeterince güvenilir değil.
Araştırmacılar, bu güvenilirlik açığının kısmen yapay olduğunu savunuyor. Mevcut karşılaştırma standartları farklı veri düzenleme politikaları kullanıyor ve sayı ağırlıklı RMSE değerlendirmesi yaparak özellikle nadir çözücülerdeki başarısızlıkları gizliyor. Ayrıca, yaygın kabul gören 0.6-0.8 log S laboratuvarlar arası fark değeri, beklenen değil en kötü durum senaryosunu yansıtıyor.
SC3 adlı yeni benchmark sistemi, bu sorunları çözmek için üç temel katkı sunuyor. İlk olarak, tekrarlanabilir bir veri düzenleme süreci ile 101.535 ölçüm, 1.327 çözünen madde ve 206 çözücü içeren kapsamlı bir veri seti oluşturuldu. Bu süreçte rastgele belirsizlik sınırı 0.106 log S olarak yeniden kalibre edildi - bu değer geleneksel rakamdan yaklaşık 6 kat daha sıkı.
İkinci olarak, altın, gümüş ve bronz olmak üzere üç farklı güvenilirlik seviyesi tanımlandı. Her veri noktası için standart sapma bilgisi sağlanarak araştırmacıların veri kalitesini daha iyi değerlendirmesi mümkün hale geldi.
Bu yeni yaklaşım, çözünürlük tahmin modellerinin gerçek performansını daha doğru bir şekilde değerlendirme imkanı sunarak, gelecekteki araştırmalara sağlam bir temel oluşturuyor.