Yapay zeka alanında video anlama teknolojisi, yeni geliştirilen VideoP2R sistemiyle önemli bir adım attı. Bu sistem, büyük video dil modellerinin akıl yürütme yeteneklerini geliştirmek için algılama ve mantık yürütme süreçlerini birbirinden ayıran yenilikçi bir yaklaşım benimsiyor.

VideoP2R'ın temelinde iki aşamalı bir eğitim süreci bulunuyor. İlk aşamada denetimli ince ayar yapılırken, ikinci aşamada pekiştirmeli öğrenme teknikleri kullanılıyor. Araştırmacılar bu süreç için VideoP2R-CoT-162K adlı özel bir veri seti oluşturdu. Bu veri seti, algılama ve akıl yürütme için yüksek kaliteli düşünce zinciri örnekleri içeriyor.

Sistemin en dikkat çekici özelliği, PA-GRPO (Process-Aware Group Relative Policy Optimization) algoritması. Bu algoritma, algılama ve mantık yürütme süreçlerine ayrı ayrı ödüller vererek modelin her iki alanda da gelişimini destekliyor. Geleneksel yöntemlerden farklı olarak, video analizini tek bir süreç olarak görmek yerine bu iki temel bileşeni ayırıyor.

Yapılan kapsamlı testlerde VideoP2R, video akıl yürütme ve anlama alanlarında kullanılan yedi kriterden altısında en yüksek performansı gösterdi. Bu sonuç, sistemin mevcut teknolojilere göre önemli bir üstünlük sağladığını gösteriyor ve video analizi alanında yeni standartlar oluşturuyor.