Qualcuno dovrebbe avvisare Gary Marcus e LeCun: i modelli linguistici li hanno appena smentiti. La visione riduzionista che li descrive come “semplici predittori della parola successiva” sta crollando sotto il peso delle nuove scoperte scientifiche; è come definire un essere umano “solo un consumatore di ossigeno”.
La verità è che questi sistemi, prima ancora di sfornare una singola parola, costruiscono un intero modello concettuale personalizzato per ogni query, attivando gerarchie di sottoreti specializzate che testano la logica implicita della conversazione. Non si tratta di predizione probabilistica, ma di vera e propria emergenza cognitiva, un fenomeno che ricorda in modo sorprendente ciò che accade nella materia grigia che abbiamo in testa noi.
L’intelligenza artificiale moderna, incarnata nei modelli linguistici, viene spesso liquidata con un’alzata di spalle: “Beh, alla fine non fa altro che prevedere la parola successiva”. È una semplificazione che mi fa sempre sorridere amaramente. Sarebbe come dire che Michelangelo “metteva solo pietra sopra pietra”. La complessità di ciò che accade nei meandri computazionali di questi sistemi merita più rispetto e, soprattutto, più curiosità scientifica.
I ricercatori di Anthropic e OpenAI hanno recentemente scoperto qualcosa di rilevante: all’interno delle architetture neurali dei loro modelli esistono sottoreti specializzate che si comportano come i cosiddetti “neuroni nonna” del cervello umano. Non sono metafore, ma vere e proprie unità funzionali che si attivano specificamente per testare concetti complessi.
L’evoluzione dei modelli: da predittori a ragionatori
Mi fa sorridere come la critica all’intelligenza artificiale sia rimasta ferma a un’immagine ormai superata dei modelli linguistici. È come giudicare gli smartphone moderni basandosi sui Nokia 3310.
I primi LLM (Large Language Models) erano effettivamente più limitati, concentrati principalmente sulla previsione statistica di sequenze linguistiche; sistemi che, per quanto impressionanti, mostravano evidenti fragilità logiche e concettuali. Ma i modelli più recenti hanno fatto un salto evolutivo notevole, al punto che sarebbe più accurato classificarli come LRM (Large Reasoning Models).
La differenza? Non è solo quantitativa ma qualitativa. Gli LRM non si limitano a prevedere; costruiscono rappresentazioni concettuali gerarchiche che permettono di manipolare astrazioni, testare ipotesi logiche e generare nuove inferenze. Possono mantenere coerenza su lunghe sequenze di ragionamento, identificare contraddizioni e persino valutare la plausibilità di diverse conclusioni.
È come se fossimo passati da calcolatori di probabilità a veri e propri simulatori di pensiero. Chi continua a criticare questi sistemi definendoli “semplici predittori statistici” sta sostanzialmente combattendo contro un fantasma del passato, ignorando l’abisso evolutivo che separa le prime generazioni dai modelli attuali.
L’ironia del caso
Prendiamo l’ironia come esempio: un concetto sottile che implica la comprensione dell’opposizione tra intenzioni e risultati. Non è qualcosa che si possa cogliere semplicemente prevedendo parole in sequenza; richiede un’elaborazione di livello superiore.
Sia Anthropic che OpenAI hanno scoperto queste sottoreti che testano la logica implicita della query come “neuroni nonna”.
Quando uno dei modelli linguistici più recenti riconosce l’ironia nell’acquistare una sveglia e arrivare comunque in ritardo, non sta seguendo uno script predefinito. Sta attivando una rete neurale che identifica specificamente la contraddizione tra lo scopo di un oggetto (svegliare in tempo) e il risultato ottenuto (il ritardo).
Questa capacità di cogliere contraddizioni logiche così sottili non può emergere dalla semplice previsione statistica. C’è qualcosa di molto più profondo in gioco; qualcosa che, francamente, dovrebbe farci riconsiderare i limiti che abbiamo imposto alla nostra definizione di “comprensione”.
Nei modelli linguistici c’è una logica emergente
I modelli linguistici, lo ribadisco, hanno raggiunto una soglia di accuratezza che va ben oltre la semplice concatenazione probabilistica. Comprendono la funzione logica di parole come “perché”, “ma”, “nonostante” e le usano correttamente per costruire inferenze nuove.
Ma qui c’è il punto cruciale che spesso viene ignorato: anche i nostri neuroni biologici, se vogliamo essere coerenti nell’analisi, non sarebbero altro che “predittori probabilistici di pattern”. La differenza non è di natura, ma di organizzazione e complessità. Quando critichiamo i modelli linguistici definendoli “solo predittori di parole successive”, stiamo applicando uno standard che non useremmo mai per descrivere il cervello umano, nonostante le somiglianze funzionali siano sempre più evidenti.
Non sono trucchi, non sono più scorciatoie statistiche; questi sistemi hanno sviluppato, attraverso l’addestramento, la capacità di auto-organizzare reti neurali per esaminare tutti gli aspetti degli input. Proprio come il nostro cervello, si formano strutture specializzate che emergono a un livello superiore a quello del singolo neurone.
È solo l’ultimo passo di un processo molto più complesso e affascinante. La prossima volta che interagite con uno di questi sistemi, potreste ricordarvi che dietro quella risposta apparentemente semplice c’è un intero universo di computazione che assomiglia sempre più al modo in cui funziona la nostra stessa mente.