Google ha presentato DiffusionGemma, un modello aperto e sperimentale che genera testo in un modo radicalmente diverso da quello a cui sei abituato. Invece di produrre una parola dopo l’altra, come fanno quasi tutti i modelli linguistici di oggi, scrive interi blocchi di testo in parallelo, arrivando a una velocità fino a quattro volte superiore sulle schede grafiche. È un esperimento che porta nel mondo del linguaggio una tecnica nata per generare immagini, la diffusione, e che apre scenari interessanti per chi vuole far girare l’AI in locale, sul proprio computer, con tempi di risposta quasi immediati. Rilasciato con licenza aperta Apache 2.0, è soprattutto un invito rivolto a ricercatori e sviluppatori a esplorare un territorio nuovo.
Cos’è DiffusionGemma e perché rompe gli schemi
Per capire la portata dell’annuncio devi partire da come lavorano i modelli linguistici tradizionali. Un large language model classico funziona come una macchina da scrivere: genera un token alla volta, da sinistra a destra, e ogni parola dipende da quelle che la precedono. Nel cloud questo approccio è efficiente, perché i server possono raggruppare migliaia di richieste e sfruttare al massimo l’hardware. Ma quando esegui il modello in locale, per un solo utente, il processo parola per parola lascia la tua scheda grafica quasi ferma, in attesa del prossimo carattere da produrre. DiffusionGemma ribalta questa logica. Invece di prevedere le parole in sequenza, abbozza un intero paragrafo da 256 token in una sola volta, dando al processore un blocco di lavoro più grande da elaborare contemporaneamente. L’immagine usata da Google è efficace: si passa da una macchina da scrivere a una pressa tipografica che stampa l’intero blocco in un colpo solo.
Il modello nasce dalla famiglia Gemma 4 e dalla ricerca su Gemini Diffusion, a cui Google ha aggiunto una nuova testa di diffusione progettata per massimizzare la velocità. È importante chiarire un punto, perché evita facili entusiasmi: i modelli autoregressivi Gemma 4 restano lo standard per output di alta qualità in produzione. DiffusionGemma è pensato per scenari dove contano la rapidità e l’interattività, non per sostituire i modelli più accurati. Se vuoi un’idea più ampia di come funzionano questi sistemi sotto il cofano, trovi il quadro completo nella nostra guida su come funzionano i large language model.
I numeri e le scelte tecniche
Sul piano dell’architettura, DiffusionGemma è un modello Mixture of Experts da 26 miliardi di parametri totali, ma ne attiva solo 3,8 miliardi durante l’inferenza. Questo gli permette di restare leggero: una volta quantizzato, entra comodamente nei 18 GB di memoria video delle schede grafiche consumer di fascia alta. Le prestazioni dichiarate sono notevoli, con oltre 1.000 token al secondo su una NVIDIA H100 e più di 700 token al secondo su una GeForce RTX 5090. Il guadagno arriva spostando il collo di bottiglia dalla banda di memoria al calcolo puro, una differenza tecnica che si traduce in risposte molto più rapide quando lavori con una singola macchina.
Ci sono altre due caratteristiche che vale la pena conoscere. La prima è l’attenzione bidirezionale: generando 256 token in parallelo, ogni token può guardare tutti gli altri, un vantaggio enorme per compiti non lineari come la modifica di testo all’interno di un documento, il completamento di codice o le sequenze di amminoacidi. La seconda è l’autocorrezione: il modello rifinisce il proprio output in modo iterativo, valutando l’intero blocco di testo per correggere gli errori in tempo reale. Per ottenere queste proprietà, DiffusionGemma rinuncia a qualcosa, e Google lo dice apertamente: la qualità complessiva è inferiore a quella di Gemma 4 standard. Per le applicazioni che richiedono la massima accuratezza, l’azienda consiglia di restare sui modelli tradizionali.
Come funziona la diffusione applicata al testo
Il principio è lo stesso dei generatori di immagini che partono da una macchia di rumore e la trasformano gradualmente in una figura nitida. Abbiamo spiegato questa logica nel dettaglio nell’articolo sui modelli di diffusione, e DiffusionGemma la applica alle parole. Il processo si svolge in tre momenti. All’inizio il modello parte da una tela di token segnaposto casuali. Poi compie più passaggi successivi, fissando i token corretti e usandoli come indizi di contesto per rifinire tutti gli altri. Infine il testo converge verso un output di qualità, con il modello che può chiudere correttamente una formattazione markdown complessa o generare e rendere codice quasi in tempo reale, proprio perché elabora l’intero paragrafo mentre lo costruisce.
Questa differenza rispetto all’approccio sequenziale dei modelli basati su architettura Transformer spiega anche dove la diffusione conviene e dove no. Il vantaggio di velocità è pensato per l’inferenza locale e a bassa concorrenza, cioè quando poche richieste girano su un solo acceleratore. Nei grandi servizi cloud ad altissimo traffico, dove i modelli autoregressivi vengono distribuiti per saturare il calcolo, il guadagno della decodifica parallela si riduce e può addirittura far salire i costi. In altre parole, DiffusionGemma non è una bacchetta magica universale, ma uno strumento ottimizzato per un contesto preciso.
A cosa serve davvero e per chi è pensato
Il caso d’uso più immediato è l’intelligenza artificiale che vive sul tuo dispositivo. Chi costruisce applicazioni interattive in tempo reale conosce bene il problema della latenza quando l’inferenza gira in locale: ogni millisecondo di attesa pesa sull’esperienza. Qui la velocità di DiffusionGemma diventa un vantaggio tangibile, ad esempio per la modifica di testo in linea, l’iterazione rapida su un documento o la generazione di strutture testuali non lineari. Un esempio curioso e illuminante arriva dal Sudoku: il team di Unsloth ha messo a punto il modello per risolverlo, un compito in cui i modelli autoregressivi faticano perché ogni numero dipende anche da quelli futuri. Grazie all’attenzione bidirezionale, DiffusionGemma affronta questo tipo di problemi con più naturalezza.
Google ha pensato anche a chi vuole metterci le mani subito. I pesi del modello sono disponibili su Hugging Face con licenza Apache 2.0, ed è possibile servirlo con strumenti diffusi come MLX, vLLM e Hugging Face Transformers, con il supporto a llama.cpp in arrivo. Per chi vuole specializzarlo, è disponibile un tutorial di fine-tuning, e l’azienda ha lavorato con NVIDIA per ottimizzare l’esecuzione sia sulle schede consumer come RTX 5090 e 4090, sia sui sistemi enterprise. Il fatto che sia un modello aperto è un dettaglio non secondario, perché permette alla comunità di studiarlo, modificarlo e capire fin dove la diffusione testuale può spingersi. Per seguire il filone della casa di Mountain View puoi consultare la nostra sezione dedicata a Google Gemini.
Perché questo annuncio conta
DiffusionGemma è interessante più per la direzione che indica che per i benchmark che raggiunge oggi. La comunità di ricerca esplora da anni la generazione di testo basata su diffusione, ma applicarla a modelli di grandi dimensioni è sempre stato complicato. Vedere un’azienda come Google rilasciare un modello aperto e funzionante, con prestazioni concrete su hardware accessibile, segnala che questo approccio sta uscendo dai laboratori. Per l’ecosistema dell’AI locale, sempre più centrale per ragioni di privacy, costi e controllo, avere modelli veloci che girano su una sola scheda grafica è un tassello prezioso. E il fatto che la velocità nasca da un cambio di paradigma, non solo da hardware più potente, rende la cosa ancora più significativa.
Resta il giusto equilibrio da tenere. La qualità inferiore rispetto ai modelli standard ricorda che si tratta di uno strumento sperimentale, da usare dove la rapidità conta più della perfezione. Ma è proprio così che nascono le tecnologie destinate a durare: prima un’idea audace, poi anni di rifinitura. La diffusione applicata al testo potrebbe seguire la stessa strada già percorsa dalla generazione di immagini, che è passata da curiosità accademica a tecnologia di uso quotidiano.
Conclusioni
Con DiffusionGemma, Google porta sul tavolo un’idea che mette in discussione il modo in cui pensiamo alla generazione del testo. Non è il modello più accurato in circolazione e non vuole esserlo, ma offre una velocità che può cambiare le carte in tavola per le applicazioni locali e interattive. Se sei uno sviluppatore o semplicemente una persona curiosa di capire dove sta andando l’intelligenza artificiale, vale la pena tenere d’occhio questo filone e, perché no, provare il modello in prima persona. Continua a seguirci per restare aggiornato sulle prossime evoluzioni dei modelli aperti e delle architetture che stanno ridisegnando il settore.
Intelligenza Artificiale Tutto su AI e machine learning