Yapay zeka alanında 3D görme-dil modelleri giderek önem kazanırken, bu büyük modelleri farklı görevlere uyarlama sorunu araştırmacıları yeni çözümler aramaya yöneltiyor. Geleneksel yaklaşımlar, tüm modeli yeniden eğitmeyi gerektirdiği için hem yüksek hesaplama maliyeti hem de büyük depolama alanı ihtiyacı doğuruyor.

Bu sorunlara çözüm olarak geliştirilen P³T (Prototypical Point-level Prompt Tuning) yöntemi, 3D nokta bulutları üzerinde çalışan görme-dil modellerini verimli bir şekilde uyarlamayı mümkün kılıyor. Sistem iki temel bileşenden oluşuyor: Point Prompter, 3D nokta bulutunun her noktası için özelleşmiş ipuçları üreterek modelin girdi verisini daha iyi anlamasını sağlıyor. Text Prompter ise metin girişlerine öğrenilebilir promptlar ekleyerek dil anlama kapasitesini güçlendiriyor.

P³T'nin en önemli avantajı, sadece girdi verisi üzerinde çalışarak overfitting problemini minimuma indirmesi. Bu sayede model, eğitim sırasında görmediği yeni veriler üzerinde de başarılı sonuçlar verebiliyor. Yöntem, 3D nesne sınıflandırma, sahne segmentasyonu ve robotik görme uygulamalarında geleneksel yöntemlere kıyasla hem daha az kaynak tüketerek hem de daha iyi genelleme performansı gösteriyor.