Un avveniristico istituto punta a conservare (e ricreare) le voci delle persone usando l’intelligenza artificiale.
I ricercatori coinvolti nell’iniziativa di una “banca vocale” sperano di poter cambiare la vita di tutte le persone che si ritrovano a perdere la voce in seguito a malattie o incidenti. Perdere la voce non è propriamente come avere un abbassamento momentaneo del suono o una raucedine. La perdita della voce è in parte la perdita dell’identità.
Tutto è nato da una collaborazione tra la Northeastern University di Boston e la VocaliD. Offrire a chi perde l’uso della parola un modo per conservare il senso della propria identità dopo un cancro alla gola o una malattia degenerativa è importante. Questo progetto permetterà loro di “parlare” utilizzando una forma sintetica molto simile alla loro stessa voce.
È il primo centro di questo tipo, e sarà guidato dal prof. Rupal Patel, fondatore e CEO della VocaliD.
La società offre già un servizio del genere per singoli soggetti, dice Patel, ma molte persone non hanno a disposizione apparecchiature di qualità sufficiente a campionare in modo corretto la voce. Realizzare una “banca vocale” permette ai futuri pazienti di conservare la loro voce quando ne hanno ancora la possibilità.
“Spesso i pazienti vengono da noi all’ultimo momento,” dice. “Non hanno abbastanza tempo di conservare la voce perché in balia della malattia, delle operazioni e altro. Ed è molto frustrante”.
La banca vocale
Il risultato è stato la collaborazione con la Northeastern per diffondere al pubblico la tecnologia. Il cuore del progetto è la Voice Preservation Clinic, un centro dove i pazienti a rischio di perdere la voce possono registrarla per metterla al riparo.
L’approccio è molto più complicato di quelli basati sulle tradizionali sintesi vocali: un algoritmo di machine learning ricostruisce legature, fonemi e perfino il ritmo in relazione alla respirazione. In una cabina speciale si registrano piccoli racconti, poesie, o conversazioni su temi diversi. Qualcuno ha perfino scherzato parlando di come perdere la voce, un modo autoironico di affrontare una grande paura.
“Quello che serve sono circa due o tre ore di parlato. Da queste registrazioni la nostra intelligenza artificiale è in grado di generare un motore vocale che ha lo stesso suono. È come far tornare la voce a chi l’ha perduta”.
La voce rigenerata può essere usata come sintesi vocale per parlare convertendo testi scritti, e potrà essere integrata domani con i software che generano parole, immagini o azioni dai tracciati mentali.
Un miglioramento rapidissimo
La tecnologia, dice Patel, sta migliorando velocemente, e tra poco sarà in grado di riprodurre un parlato indistinguibile da quello umano.
Il team sarà inoltre in grado di “invecchiare” la voce per adattarla all’età della persona, mentre non è ancora possibile “far crescere” la voce di un ragazzo trasformandola in adulta.