Ma ve lo immaginate un hedge fund di Wall Street che decide di bruciare miliardi per costruire un’intelligenza artificiale generale? È esattamente ciò che ha fatto High-Flyer, un fondo quantitativo cinese che ha trasformato tutto il suo reparto Ricerca & Sviluppo in DeepSeek nel 2023. Con una montagna di GPU accumulate prima delle sanzioni USA, il fondatore Liang Wenfeng ha scommesso su ricercatori under-30 e ottimizzazione estrema.
“Non cerchiamo profitti immediati, ma risposte alle domande più difficili del mondo”, ha dichiarato Liang.
Il risultato di questa filosofia è DeepSeek-R1, modello open source che supera OpenAI o1 in matematica e logica, usando 1/10 delle risorse di Llama 3.1. Il segreto? “Fare di necessità virtù”, spiega Marina Zhang dell’Università di Sydney. Senza accesso ai chip Nvidia più avanzati, DeepSeek ha rivoluzionato l’architettura dei modelli, creando algoritmi che comunicano come un’orchestra jazz: pochi strumenti, massima sintonia. E ora fanno tremare il ricco (e costoso, anche in termini di risorse energetiche) mondo dell’AI Occidentale.
Giovani geni e patriottismo: la ricetta segreta (e un po’ anarchica)
Mentre Google e Meta assumono veterani (e talenti dall’estero), DeepSeek punta su neolaureati di Pechino e Tsinghua: cervelli affamati di gloria accademica, non di stipendi d’oro. “Assumiamo chi ha vinto premi internazionali, anche con zero esperienza industriale”, ammette Liang. Un approccio che paga: il team ha sviluppato la Multi-head Latent Attention, una tecnica che riduce del 40% il consumo di memoria.
“Sono come startup degli anni ’70: pochi soldi, tanta creatività”, dice Wendy Chang, analista del Mercator Institute. “Hanno combinato trucchi d’ingegneria: schemi di comunicazione custom, compressione dati… Roba nota, ma mai usata così”.
E c’è un ingrediente extra: patriottismo tecnologico. “Questa generazione vuole dimostrare che la Cina può innovare nonostante le sanzioni”, aggiunge Zhang. Un mindset (più o meno spontaneo) che trasforma i limiti in trampolini.
MLA e Mixture-of-Experts: le armi segrete di DeepSeek per battere OpenAI
Cosa rende DeepSeek-R1 così efficiente? Tre fattori principali:
- Multi-head Latent Attention (MLA): riduce i calcoli ridondanti, focalizzando l’attenzione su pattern chiave.
- Mixture-of-Experts: attiva solo parti specifiche della rete neurale a seconda del compito, come un meccanico che usa solo gli attrezzi necessari.
- È open source, almeno per ora. “È l’unico modo per recuperare terreno sull’Occidente”, spiega Chang. “Attiri contributori globali, migliori il modello, crei un ecosistema”. Strategia vincente: in 2 mesi, 20.000 sviluppatori hanno contribuito al codice.
È come avere un motore Ferrari che consuma come una Panda. Addestrare DeepSeek-R1 costa $15 milioni contro i $150 milioni di Meta. Un gap che fa tremare Silicon Valley.
Le sanzioni USA? Un boomerang (forse)
Quando nel 2022 gli USA bloccarono l’export di chip avanzati, molti prevedevano il collasso dell’AI cinese. Per il momento, DeepSeek dimostra che l’ingegno batte l’hardware. “Le stime su cosa possa fare la Cina con le sue risorse vanno riviste”, avverte Chang.
Il modello cinese? Ottimizzazione estrema + open source + nazionalismo tecnologico. “Se altri seguiranno, le sanzioni perderanno senso”, conclude Zhang. Intanto, i codici saranno anche Open Source, ma DeepSeek non risponde alle email di Wired (figurarsi alle nostre).
Ne sentiremo sicuramente parlare.