AudioLM, il sistema sviluppato dai ricercatori di Google, genera ogni sorta di suono, compresi quelli complessi come la musica del pianoforte in una canzone o persone che parlano, in modo quasi indistinguibile dal frammento iniziale che gli viene sottoposto.
La tecnica è davvero promettente, e potrà tornare utile in molti modi. Ad esempio, potrà accelerare il processo di addestramento dell’intelligenza artificiale, o generare automaticamente musica per accompagnare i video. Ma è molto più di questo.
Suonala ancora, Sam
Siamo già abituati a sentire audio generato dall’intelligenza artificiale. Chi litiga ogni giorno con Alexa o con Google Nest lo sa bene: i nostri assistenti vocali elaborano linguaggio naturale.
Ci sono, a dire il vero, anche sistemi addestrati sulla musica: ricordate Jukebox di OpenAI? Ve ne ho parlato qui. Tutti questi sistemi, però, si basano su un “addestramento” lungo e complesso, che passa per la catalogazione e somministrazione di molti “spunti”. Le nostre intelligenze artificiali sono voraci di dati, e ne vogliono sempre di più.
Il passo successivo è far “pensare” l’AI mettendola in grado di elaborare più speditamente le informazioni che ascolta, senza la necessità di lunghi addestramenti. Qualcosa di simile a ciò che si tenta di fare con i sistemi a guida autonoma.
Come funziona AudioLM
Per generare l’audio, alcuni secondi di canzone o suono vengono inseriti in AudioLM, che letteralmente prevede ciò che viene dopo. Non è Shazam, non cerca il brano intero e lo ripropone. Non fa collage di suoni che ha in memoria. Li costruisce. Il processo è simile al modo in cui i modelli linguistici come GPT-3 prevedono frasi e parole.
Le clip audio diffuse dal team Google suonano molto naturali. In particolare, la musica di pianoforte generata da AudioLM sembra più fluida di quella generata con le attuali intelligenze artificiali. In altri termini, è più bravo a catturare il nostro modo di produrre una canzone, o un suono.
“È davvero impressionante, anche perché indica che questi sistemi stanno imparando alcuni tipi di struttura a più livelli”, dice Roger Dannenberg, ricercatore di musica generata al computer presso la Carnegie Mellon University.
Non solo canzone
Immaginate di parlare ad AudioLM, due parole e stop. Il sistema continuerà il discorso imparando la vostra cadenza, il vostro accento, le vostre pause, perfino la vostra respirazione. In sintesi, esattamente il vostro modo di parlare. Non c’è bisogno di fare un addestramento specifico: sa farlo quasi da solo.
Come un pappagallo che ripete le cose ascoltate. Solo che questo è un pappagallo in grado di recepire e produrre qualsiasi suono, e di completare autonomamente quelli lasciati a metà.
In sintesi? Avremo molto presto (e in questi casi significa prestissimo) sistemi in grado di parlare con molta più naturalezza, e di comporre una canzone o un suono esattamente come Dall-E 2, MidjourneyAI e altre creano immagini, o Make-A-Video crea clip sulla base di un nostro input.
Di chi saranno i diritti di una canzone?
Anche se questi sistemi saranno capaci di creare contenuti quasi da soli, quel “quasi” fa ancora tutta la differenza del mondo, e rende necessario considerare le implicazioni etiche di questa tecnologia.
Se dirò “Coso, creami un finale diverso per Bohemian Rapsody” e questo coso realizzerà una canzone su quella falsariga, chi potrà vantare i diritti e incasserà le royalties del brano? Senza contare il fatto che suoni e discorsi ormai indistinguibili da quelli umani sono molto più convincenti, e aprono a una diffusione di disinformazione senza precedenti.
Nel documento pubblicato per presentare questa AI (ve lo linko qui), i ricercatori scrivono che stanno già considerando come mitigare questi problemi, inserendo modi per distinguere i suoni naturali da quelli prodotti con AudioLM. Ci credo poco. Si perderebbero molti degli scopi per cui questa AI è stata creata.
Più in generale, il rischio è di produrre un fenomeno che chiamerei “sfiducia della realtà”. Se tutto può essere vero, niente può esserlo. Niente ha valore.