Gli algoritmi di intelligenza artificiale e machine learning stanno diventando sempre più bravi a prevedere le azioni nei video.
Il migliore degli algoritmi attuali può anticipare in modo abbastanza preciso dove una palla da baseball andrà dopo che è stata lanciata, o la comparsa di una strada nella sequenza che verrà. In altre parole? Prevedere fotogrammi nel futuro di un filmato.
Un nuovo approccio proposto dai ricercatori di Google, Università del Michigan e Adobe fa avanzare lo stato dell’arte con modelli su larga scala che generano video di alta qualità da pochi fotogrammi.
“Con questo progetto puntiamo ad ottenere previsioni video precise. Ottimizzeremo le capacità di una rete neurale”, hanno scritto i ricercatori in un documento che descrive il loro lavoro.
Il modello del team
Il modello di base del team si basa su un’architettura di generazione stocastica di video, con un componente che gestisce le previsioni dei fotogrammi successivi a quelli considerati.
Il team ha formato e testato separatamente diverse versioni del modello rispetto a set di dati personalizzati in base a tre categorie di previsione: interazioni tra oggetti, movimento strutturato e osservabilità parziale.
Per il primo compito (interazioni con gli oggetti) i ricercatori hanno selezionato 256 clip da un blocco di video che mostravano un braccio robot mentre interagiva con degli asciugamani.
Per il secondo (movimento strutturato) hanno edaminato clip da Human 3.6M, un blocco contenente clip di umani che eseguono azioni come sedersi su una sedia.
Per quanto riguarda il terzo (attività di osservabilità parziale), hanno utilizzato un set di dati di guida KITTI open source raccolti da filmati di telecamere montate su cruscotti delle auto.
Dopo questo “addestramento,” il modello di AI ha generato fino a 25 fotogrammi nel futuro.
I ricercatori riferiscono che le “previsioni” sono state preferite il 90,2, il 98,7% e il 99,3% delle volte dai valutatori rispettivamente ai tre tipi di video: interazioni tra oggetti, movimento strutturato e compiti di osservabilità parziale, rispettivamente.
Qualitativamente, il team nota che l’AI ha rappresentato in modo nitido braccia e gambe umane e fatto “previsioni molto precise che sembravano realistiche rispetto alle scene rappresentate nel video” .
“Abbiamo scoperto che massimizzare la capacità di tali modelli migliora la qualità della previsione video,” scrivono i coautori. Speriamo che il nostro lavoro incoraggi il campo a spingersi in direzioni simili in futuro. Ad esempio per vedere fino a che punto possiamo arrivare”.