Google ha appena introdotto Gemini, la sua nuova frontiera nell’intelligenza artificiale, con una dimostrazione che ha sbalordito il mondo. Un video pubblicato su YouTube mostra la straordinaria abilità di Gemini nell’interpretare e rispondere a stimoli visivi e verbali.
Il test, apparentemente semplice, si trasforma rapidamente in una incredibile dimostrazione delle capacità “quasi umane” di questa AI nel comprendere e interagire con il mondo circostante.
Google Gemini: un salto quantico nell’intelligenza artificiale
L’emergere di Google Gemini (della quale ci eravamo occupati lo scorso settembre ai primissimi annunci) segna un punto di svolta nel panorama dell’intelligenza artificiale. La capacità di Gemini di interpretare e rispondere a diversi segnali visivi e verbali supera tutto ciò che abbiamo visto finora dalle tecnologie AI.
Non si tratta semplicemente di un passo avanti nel riconoscimento visivo o nella comprensione del linguaggio naturale. Quella che si vede nella dimostrazione è un’integrazione estremamente fluida di entrambe le capacità: una cosa che porta l’AI più vicina a una vera e propria comprensione del contesto umano.
La demo di Google Gemini: una finestra sul futuro
Anzitutto, se l’avete persa DOVETE vederla. Eccola:
La demo inizia con un partecipante umano che chiede a Gemini di descrivere ciò che vede. La semplice azione di posizionare un Post-it e disegnarvi sopra una linea improvvisata viene prontamente interpretata da Gemini. Ma è il proseguimento del test che rivela la vera potenza di Gemini.
Con il disegno che evolve in una figura riconoscibile, un’anatra, Gemini non solo identifica correttamente l’oggetto, ma fornisce anche dettagli sull’ambiente circostante, dimostrando una comprensione totale del contesto visivo.
Oltre il riconoscimento: interazione e traduzione
L’intelligenza di Google Gemini non si limita alla mera interpretazione visiva. Quando il partecipante introduce giochi e richieste di traduzione, Gemini risponde con precisione. La sua capacità di tradurre “anatra” in varie lingue, e di comprendere e partecipare a giochi semplici, evidenzia un livello di interattività e versatilità che prima sembrava appannaggio esclusivo degli umani.
L’applicazione pratica di una tecnologia come quella di Google Gemini? Eh. Impossibile definirne i limiti. Dalla chirurgia alla didattica, dalle applicazioni domestiche alle industrie creative, le possibilità sembrano infinite. Gemini potrebbe rivoluzionare il modo in cui interagiamo con la tecnologia, rendendo l’interfaccia uomo-macchina più intuitiva, naturale e efficiente.
Si, ma quando potremo usarla?
Dopo la sincera ammirazione per quanto visto nella demo, sincerità per sincerità devo anche far presente che fino ad ora la “ciccia” arrivata da Google è stata poca. Bard, trascinato nell’agone del confronto con ChatGPT di OpenAI e Claude di Anthropic, è stato presentato con troppe aspettative. La tecnologia “sul campo” è inferiore a quella dei concorrenti (limitatamente al modello di linguaggio: altre AI come quella di Deepmind stanno sortendo grandi risultati). E il fatto che Google Gemini non abbia ancora una data ufficiale di lancio produce una certa frustrazione.
Sarà che sembra “troppo avanzata per essere vera”, sarà che non si vede l’ora di metterci mano, ma il tempo delle dimostrazioni è finito. La demo di Google Gemini promette di superare le limitazioni attuali delle tecnologie AI: vediamola all’opera, dunque.
Non fatemi sospettare che si tratti solo di un altro modo per prendere tempo.
Edit 8/12/2023: ecco. Neanche a farlo apposta. Dopo insistenza di moltissimi utenti, Google ammette che la demo vera e propria di Gemini è stata realizzata “utilizzando fotogrammi del filmato e messaggi di testo”, invece di far rispondere Gemini a un disegno o a un cambiamento di oggetti sul tavolo in tempo reale, o addirittura di prevederlo. Questo è molto meno impressionante di quanto il video voglia far credere e, peggio ancora, la mancanza di una dichiarazione sul metodo di input effettivo rende la prontezza di Gemini piuttosto discutibile, così come il comportamento di Google.