Sta diventando estremamente facile (e non credo sia solo un bene) alterare un video, e gli ultimi sviluppi nel campo dell’AI sono davvero impressionanti.
Una collaborazione tra giganti (Università di Stanford e Princeton piu il Max Planck Institute for Informatics e la Adobe) rende possibile alterare il discorso in un video semplicemente modificandone la trascrizione testuale, e senza creare l’effetto “doppiaggio”.
In altre parole la persona che sta parlando in video cambierà letteralmente le parole del suo discorso modificando anche i movimenti labiali.
Per ottenere questo risultato un po’ inquietante l’algoritmo “apprende” i fonemi e la loro pronuncia da parte del soggetto nel video e crea un accurato modello 3D del suo volto, in grado di replicare tutti i suoni e i movimenti: a quel punto basterà editare il testo del discorso e l’algoritmo rimpiazzerà la frase originaria.
Attualmente l’algoritmo ha bisogno di almeno 40 minuti di filmato per “allenarsi” a replicare una persona in un filmato.
Ecco un video che dimostra il funzionamento del sistema:
Immensi dubbi etici
È chiaro che questo meccanismo crea la possibilità che chiunque possa modificare un discorso (magari di figure politiche o personaggi pubblici) inserendo elementi di odio, o disinformazione, e diffonderli come originali e naturali: questo non fa che aumentare le preoccupazioni sulla diffusione di sistemi basati sul deepfake.
D’altro canto, qualche lato positivo c’è, ed è nell’enorme risparmio che l’editing otterrà evitando di girare daccapo intere scene a causa di piccoli errori di pronuncia.
Per il resto, sono certo che verranno sviluppati altri metodi “anti contraffazione” anche per i video: filigrane dinamiche o watermark che rendano ancora più complesso il lavoro dell’intelligenza artificiale, in una competizione tra realtà e manipolazione che pare già destinata a caratterizzare i prossimi anni.