Lo so, eravamo tutti distratti da altro: a gennaio 2021 OpenAI, l’azienda fondata da Elon Musk e sostenuta da Microsoft, ha lanciato il suo progetto più ambizioso fino ad oggi: un sistema di apprendimento automatico chiamato DALL-E.
Cosa fa questa intelligenza artificiale? Presto detto: produce immagini a partire da una semplice descrizione di testo. Un esempio? Scrivi “Un cammello con un libro come cappello”, o “Una cravatta fatta di forchette” e lui disegna, crea, insomma: tira fuori un’immagine.
Ora, Open AI ha presentato la seconda versione di DALL-E, e le cose sono diventate maledettamente serie: la risoluzione è diventata molto migliore e il tempo di produzione molto più basso. Una tipica dinamica esponenziale cui le intelligenze artificiali ci hanno abituato, e soprattutto ci abitueranno. Anche perchè, se ricordate, il capo di Open AI ha giusto detto che queste macchine forse (forse) stanno diventando senzienti.
Un po’ Wall-E, un po’ Dalì
Il DALL-E versione uno (un portmanteau di “Dali,” come l’artista, e “WALL-E,” come il personaggio animato della Disney) era in grado di generare immagini e cucire insieme varie foto in un collage, offrendo prospettive modificabili, e deducendo da solo elementi di un’immagine, ad esemmpio effetti di ombreggiatura.
Un disegnatore iper bravo, con tutte le immagini del mondo a disposizione, che interpeta le richieste e disegna all’istante.
“A differenza di un motore di rendering 3D, che richiede input precisi, DALL-E è spesso in grado di ‘riempire gli spazi vuoti’ quando la didascalia implica che l’immagine dovrebbe includere un certo elemento non è espressamente indicato,” scriveva il team lo scorso anno sul blog di Open AI.
Come funziona l’AI che disegna su richiesta?
DALL-E non è stato pensato per essere un prodotto commerciale, e il team OpenAI ha deciso che sarebbe stato meglio così. I ricercatori gli hanno “impedito” ad esempio di creare immagini a sfondo sessuale o politico, per evitare che il sistema sia usato per generare disinformazione. Stesso discorso per nomi specifici: impossibile chiedergli, per dire, “disegna Frank Sinatra che gioca a tennis con un orso polare”.
DALL-E 1, in buona sostanza, sfrutta l’incredibile interprete di linguaggio GPT-3 (qui ne parlo più approfonditamente, se vi interessa) e disegna ciò che capisce più ciò che “intuisce”.
Diversamente dalla prima versione, che era a disposizione di tutti sul sito di OpenAI, questa è solo disponibile per i test da parte di un numero ristretto di partner: attendo a giorni risposta da Open AI per far parte del gruppo.