Microchip su circuito stampato - chip neuromorfico MIT per AI
Foto: Unsplash (Unsplash License)

Il MIT sviluppa un chip neuromorfico che fa girare LLM da 70 miliardi di parametri a basso consumo

Un team di ricercatori del Massachusetts Institute of Technology ha pubblicato i risultati di un chip neuromorfico progettato specificamente per l’inferenza di grandi modelli di linguaggio, con risultati che, se confermati in produzione, potrebbero cambiare l’economia dell’AI locale e del cloud. Il chip riduce il consumo energetico per le operazioni di inferenza su modelli da 70 miliardi di parametri di circa il 80 per cento rispetto alle GPU NVIDIA tradizionali, mantenendo latenze compatibili con applicazioni in tempo reale. Per un settore dove il consumo energetico dei data center è diventato uno dei principali colli di bottiglia della crescita (come il recente rapporto ONU ha documentato in modo preciso), questo tipo di innovazione hardware ha implicazioni che vanno ben oltre i laboratori di ricerca.

L’architettura neuromorfica: processare in memoria invece che spostare dati

L’inefficienza energetica delle GPU tradizionali nell’inferenza AI ha una radice ben identificata: il “von Neumann bottleneck”. Nelle architetture convenzionali, i dati (i pesi del modello) vengono continuamente trasferiti dalla memoria al processore e viceversa. Questo movimento di dati è energeticamente costoso e lento. Un modello da 70 miliardi di parametri richiede circa 140 GB di memoria a 16 bit, e durante l’inferenza questi dati vengono caricati e scaricati ripetutamente per ogni token generato.

Il chip del MIT usa un approccio “processing-in-memory”: invece di separare fisicamente la memoria dalla logica computazionale, integra le operazioni di moltiplicazione matriciale direttamente nelle celle di memoria, usando dispositivi memristivi (resistive RAM) che possono sia immagazzinare i pesi del modello sia eseguire operazioni aritmetiche su di essi. In questo modo, il movimento fisico dei dati si riduce drasticamente, e con esso il consumo energetico associato.

La struttura a “crossbar array” del chip permette di eseguire miliardi di moltiplicazioni in parallelo con un’efficienza energetica molto superiore alle GPU CMOS tradizionali. Per le operazioni di trasformazione lineare che dominano il carico computazionale dei Transformer, questa architettura è particolarmente efficace. Il collegamento con la ricerca sull’architettura delle reti neurali è diretto: l’efficienza del chip sfrutta la natura altamente parallela e matriciale delle operazioni di inferenza nei modelli Transformer.

Cosa significano questi risultati per il futuro dell’AI locale

Se i risultati pubblicati dal MIT si traducono in chip commerciali, le implicazioni sono significative su due fronti. Il primo è il costo dell’inferenza cloud: ridurre del 80 per cento il consumo energetico per query significa ridurre proporzionalmente il costo operativo dei data center AI. Questo potrebbe accelerare la riduzione dei prezzi dell’inferenza AI già in corso e rendere economicamente sostenibili applicazioni che oggi sono troppo costose per un uso massivo.

Il secondo fronte è l’AI locale (edge inference): eseguire modelli da 70 miliardi di parametri su dispositivi mobili o su hardware embedded era fino a poco fa impossibile per ragioni di consumo energetico e batteria. Con chip di questa efficienza, lo scenario di avere un LLM capace di Llama 70B in un laptop o in un dispositivo IoT senza connessione cloud diventa tecnicamente concepibile. Le implicazioni per la privacy (i dati non escono dal dispositivo) e per la disponibilità offline sono considerevoli.

I limiti da superare prima della commercializzazione

I risultati pubblicati sono impressionanti, ma il percorso dalla prototipazione in laboratorio alla produzione commerciale è lungo e irto di sfide. I dispositivi memristivi hanno problemi di variabilità (le celle non sono identiche tra loro), di drift (i valori resistivi cambiano nel tempo) e di endurance (un numero limitato di cicli di scrittura). Questi problemi rendono difficile garantire la precisione numerica necessaria per l’inferenza dei LLM, che è notoriamente sensibile agli errori di quantizzazione.

Il team del MIT ha sviluppato tecniche di compensazione software per gestire la variabilità hardware, ma la robustezza di queste tecniche su larga scala e nel lungo periodo deve essere dimostrata. La timeline realistica per chip neuromorforici commerciali per LLM va dai 5 ai 10 anni, con possibili accelerazioni se i grandi produttori di semiconduttori (TSMC, Samsung, Intel) decidono di investire in questa direzione.

Conclusioni

Il chip del MIT è un risultato di ricerca significativo che indica una direzione promettente per l’hardware AI del futuro. Il processing-in-memory con dispositivi memristivi può potenzialmente risolvere il bottleneck energetico dell’inferenza LLM che oggi limita la scalabilità e la diffusione dell’AI. I tempi commerciali sono ancora lunghi, ma il fatto che un’architettura radicalmente diversa da quella delle GPU convenzionali mostri vantaggi così netti nell’efficienza è un incentivo concreto per continuare a investire in questa direzione. Per chi è interessato alle tecnologie hardware per l’AI, la ricerca su quantum computing e AI offre un’altra prospettiva sulle architetture computazionali del futuro.

Suggerimento di lettura

OpenAI risolve la congettura di Erdős: per la prima volta l’AI supera 80 anni di matematica irrisolta

Un modello di ragionamento OpenAI ha dimostrato autonomamente la falsità di una congettura irrisolta da 80 anni: la storia di come l'AI è entrata nella matematica pura.