Gli algoritmi di intelligenza artificiale e machine learning in grado di leggere le labbra dai video non sono nulla di straordinario, in verità.
Nel 2016, i ricercatori di Google e dell’Università di Oxford hanno dettagliato un sistema in grado di leggere il labiale e annotare i filmati con un’accuratezza del 46,8%. Vi sembra poco? Surclassava già l’accuratezza del 12,4% di un lettore di labbra umano professionale. E non esisteva ancora LIBS.
Il 46,8% però non è all’altezza con le capacità che l’intelligenza artificiale può mostrare oggi. I sistemi all’avanguardia lottano per superare le ambiguità nei movimenti delle labbra, che impedisce alle loro prestazioni di superare quelle del riconoscimento vocale basato sull’audio.
Alla ricerca di un sistema più performante, i ricercatori di Alibaba, Zhejiang University e Stevens Institute of Technology hanno ideato un metodo soprannominato Lip by Speech (LIBS), che utilizza le caratteristiche estratte dai riconoscimenti vocali per servire da indizi complementari. Il sistema alza l’asticella di un ulteriore 8%, e può migliorare ancora.
LIBS e altre soluzioni simili potrebbero aiutare chi ha problemi di udito a seguire video privi di sottotitoli. Si stima che 466 milioni di persone nel mondo soffrano di perdita dell’udito, pari a circa il 5% della popolazione mondiale. Entro il 2050, il numero potrebbe salire a oltre 900 milioni, secondo l’Organizzazione mondiale della sanità.
Il metodo AI per leggere il labiale
LIBS ricava informazioni audio utili da diversi fattori: come un abile crittografa, l’AI va a caccia di parole comprensibili. A quel punto le confronta con la corrispondenza al labiale e va a cercare tutti i labili simili. Ma non si ferma qui: confronta anche la frequenza video di quei fotogrammi, ed altri indizi tecnici, affinando la ricerca fino a leggere il labiale anche in parole incomprensibili al nostro orecchio.
Se vi sembra complicato riprovo, ma non prometto niente.
Cito dal paper di presentazione della Tecnologia. “Sia il riconoscimento vocale che i componenti del lettore labiale di LIBS si basano su un’architettura sequenza-sequenza basata sull’attenzione, un metodo di traduzione automatica che mappa un input di una sequenza (audio o video).”
I ricercatori hanno addestrato l’AI su un primo database che contiene oltre 45.000 frasi pronunciate dalla BBC, e sul CMLR, il più grande corpus cinese disponibile per la lettura delle labbra in cinese mandarino, con oltre 100.000 frasi naturali.
I campi di applicazione non si riducono solo all’aiuto per i non udenti. L’usanza di attribuire un utilizzo “socialmente nobile” ad ogni tecnologia non deve mai farci dimenticare che l’impiego principe di queste tecnologie è nel settore militare, o di sicurezza.
A nessuno è balenato il pensiero che questo sistema possa rendere ancora più infallibile e pervasiva la sorveglianza delle incredibili nuove telecamere di sicurezza, o dei nuovi sistemi via satellite?
Con l’AI ormai diventata un occhio onnisciente sarà uno scherzo ascoltare (o ricostruire) i nostri bisbigli anche da un satellite in orbita.