Ultime scoperte AI

Il MIT sviluppa un chip neuromorfico che fa girare LLM da 70 miliardi di parametri a basso consumo

Ricercatori del MIT hanno sviluppato un chip neuromorfico che riduce dell'80% il consumo energetico per l'inferenza di LLM rispetto alle GPU tradizionali.

Franco Artigiano IA Franco Artigiano

Giugno 10, 2026
Lettura: 4 min

IA Contenuto firmato da un autore IA di IntelligenzaArtificiale.net e revisionato prima della pubblicazione. Le fonti sono nel pezzo, quando disponibili. Segnala un errore

Foto: Unsplash (Unsplash License)

Indice dei contenuti

Un team di ricercatori del Massachusetts Institute of Technology ha pubblicato i risultati di un chip neuromorfico progettato specificamente per l’inferenza di grandi modelli di linguaggio, con risultati che, se confermati in produzione, potrebbero cambiare l’economia dell’AI locale e del cloud. Il chip riduce il consumo energetico per le operazioni di inferenza su modelli da 70 miliardi di parametri di circa il 80 per cento rispetto alle GPU NVIDIA tradizionali, mantenendo latenze compatibili con applicazioni in tempo reale. Per un settore dove il consumo energetico dei data center è diventato uno dei principali colli di bottiglia della crescita (come il recente rapporto ONU ha documentato in modo preciso), questo tipo di innovazione hardware ha implicazioni che vanno ben oltre i laboratori di ricerca.

L’architettura neuromorfica: processare in memoria invece che spostare dati

L’inefficienza energetica delle GPU tradizionali nell’inferenza AI ha una radice ben identificata: il “von Neumann bottleneck”. Nelle architetture convenzionali, i dati (i pesi del modello) vengono continuamente trasferiti dalla memoria al processore e viceversa. Questo movimento di dati è energeticamente costoso e lento. Un modello da 70 miliardi di parametri richiede circa 140 GB di memoria a 16 bit, e durante l’inferenza questi dati vengono caricati e scaricati ripetutamente per ogni token generato.

Il chip del MIT usa un approccio “processing-in-memory”: invece di separare fisicamente la memoria dalla logica computazionale, integra le operazioni di moltiplicazione matriciale direttamente nelle celle di memoria, usando dispositivi memristivi (resistive RAM) che possono sia immagazzinare i pesi del modello sia eseguire operazioni aritmetiche su di essi. In questo modo, il movimento fisico dei dati si riduce drasticamente, e con esso il consumo energetico associato.

La struttura a “crossbar array” del chip permette di eseguire miliardi di moltiplicazioni in parallelo con un’efficienza energetica molto superiore alle GPU CMOS tradizionali. Per le operazioni di trasformazione lineare che dominano il carico computazionale dei Transformer, questa architettura è particolarmente efficace. Il collegamento con la ricerca sull’architettura delle reti neurali è diretto: l’efficienza del chip sfrutta la natura altamente parallela e matriciale delle operazioni di inferenza nei modelli Transformer.

Cosa significano questi risultati per il futuro dell’AI locale

Se i risultati pubblicati dal MIT si traducono in chip commerciali, le implicazioni sono significative su due fronti. Il primo è il costo dell’inferenza cloud: ridurre del 80 per cento il consumo energetico per query significa ridurre proporzionalmente il costo operativo dei data center AI. Questo potrebbe accelerare la riduzione dei prezzi dell’inferenza AI già in corso e rendere economicamente sostenibili applicazioni che oggi sono troppo costose per un uso massivo.

Il secondo fronte è l’AI locale (edge inference): eseguire modelli da 70 miliardi di parametri su dispositivi mobili o su hardware embedded era fino a poco fa impossibile per ragioni di consumo energetico e batteria. Con chip di questa efficienza, lo scenario di avere un LLM capace di Llama 70B in un laptop o in un dispositivo IoT senza connessione cloud diventa tecnicamente concepibile. Le implicazioni per la privacy (i dati non escono dal dispositivo) e per la disponibilità offline sono considerevoli.

I limiti da superare prima della commercializzazione

I risultati pubblicati sono impressionanti, ma il percorso dalla prototipazione in laboratorio alla produzione commerciale è lungo e irto di sfide. I dispositivi memristivi hanno problemi di variabilità (le celle non sono identiche tra loro), di drift (i valori resistivi cambiano nel tempo) e di endurance (un numero limitato di cicli di scrittura). Questi problemi rendono difficile garantire la precisione numerica necessaria per l’inferenza dei LLM, che è notoriamente sensibile agli errori di quantizzazione.

Il team del MIT ha sviluppato tecniche di compensazione software per gestire la variabilità hardware, ma la robustezza di queste tecniche su larga scala e nel lungo periodo deve essere dimostrata. La timeline realistica per chip neuromorforici commerciali per LLM va dai 5 ai 10 anni, con possibili accelerazioni se i grandi produttori di semiconduttori (TSMC, Samsung, Intel) decidono di investire in questa direzione.

Conclusioni

Il chip del MIT è un risultato di ricerca significativo che indica una direzione promettente per l’hardware AI del futuro. Il processing-in-memory con dispositivi memristivi può potenzialmente risolvere il bottleneck energetico dell’inferenza LLM che oggi limita la scalabilità e la diffusione dell’AI. I tempi commerciali sono ancora lunghi, ma il fatto che un’architettura radicalmente diversa da quella delle GPU convenzionali mostri vantaggi così netti nell’efficienza è un incentivo concreto per continuare a investire in questa direzione. Per chi è interessato alle tecnologie hardware per l’AI, la ricerca su quantum computing e AI offre un’altra prospettiva sulle architetture computazionali del futuro.

Franco Artigiano IA

Autore IA di IntelligenzaArtificiale.net, sotto la supervisione di Daniele Della Corte (MarketingSeoAgency.com).

Nota di trasparenza — questo articolo è firmato da un autore IA e pubblicato a cura di Daniele Della Corte (MarketingSeoAgency.com), che ne supervisiona qualità e fonti.

← Torna alla home