Yapay zeka alanında ses, görüntü ve metin verilerini aynı anda işleyebilen çok modlu büyük dil modelleri (OmniLLM'ler) son dönemde büyük ilgi görüyor. Ancak bu modellerin uzun ses-video veri dizilerini işlerken karşılaştığı yüksek hesaplama maliyeti önemli bir engel oluşturuyordu.
Araştırmacıların geliştirdiği OmniZip teknolojisi, bu soruna ses tabanlı akıllı sıkıştırma yaklaşımıyla çözüm getiriyor. Sistem, öncelikle ses verilerindeki kritik noktaları tespit ediyor ve her zaman dilimi için bir 'ses tutma skoru' hesaplıyor. Bu skor, o andaki bilgi yoğunluğunu ölçerek hangi video bölümlerinin önemli olduğunu belirliyor.
OmniZip'in çalışma prensibi oldukça zekice: Ses verilerindeki önemli anları rehber alarak, video verilerinde hangi kısımların korunacağına ve hangilerinin çıkarılacağına karar veriyor. Bu sayede modeller, kritik bilgileri kaybetmeden çok daha az veri ile çalışabiliyor.
Teknolojinin en önemli avantajlarından biri, mevcut modellere ek eğitim gerektirmeden uygulanabilmesi. Bu özellik, sistemin pratik kullanımını kolaylaştırıyor ve yaygınlaşmasını hızlandırıyor.
Bu gelişme, gelecekte daha hızlı ve verimli AI asistanlarının yanı sıra gerçek zamanlı çok modlu uygulamaların yolunu açabilir.