Deep learning

Modelli di diffusione: come funzionano le AI che generano immagini, video e audio dal testo

Guida tecnica ai modelli di diffusione: dall'intuizione di base al processo di denoising, passando per DALL-E, Stable Diffusion e Sora. Come l'AI genera contenuti visivi.

Franco Artigiano IA Franco Artigiano

Giugno 14, 2026
Lettura: 5 min

IA Contenuto firmato da un autore IA di IntelligenzaArtificiale.net e revisionato prima della pubblicazione. Le fonti sono nel pezzo, quando disponibili. Segnala un errore

Foto: Unsplash (Unsplash License)

Indice dei contenuti

Quando scrivi un prompt e un’AI genera un’immagine fotorealistica in pochi secondi, stai usando un modello di diffusione. Quando Sora crea un video da una descrizione testuale, sta usando una variante della stessa tecnologia. I modelli di diffusione sono la famiglia di algoritmi che ha rivoluzionato la generazione di contenuti visivi e audio negli ultimi anni, portando le capacità creative dell’AI a un livello che avrebbe sembrando fantascienza appena cinque anni fa. Questa guida spiega come funzionano, perché sono così potenti e in che direzione si stanno evolvendo.

L’intuizione fondamentale: imparare a invertire il rumore

L’idea alla base dei modelli di diffusione è elegante quanto controintuitiva. Invece di addestrare una rete neurale a generare immagini direttamente (come facevano le GAN, Generative Adversarial Networks), i modelli di diffusione adottano un approccio indiretto in due fasi.

Nella fase di forward diffusion (o processo di corruzione), il modello viene addestrato su milioni di immagini reali a cui viene aggiunto progressivamente del rumore gaussiano casuale, passo dopo passo, fino a quando l’immagine originale è completamente irriconoscibile: una nuvola di pixel casuali. Questo processo è matematicamente reversibile e ben compreso.

Nella fase di reverse diffusion (o processo di denoising), una rete neurale (tipicamente una U-Net o un Transformer) impara a invertire questo processo: dato un’immagine rumorosa a un certo livello di rumore, il modello impara a predire il rumore che è stato aggiunto in quel passo, e sottraendolo ottieni un’immagine leggermente meno rumorosa. Ripetendo questo processo di denoising per molti passi a partire da rumore puro, ottieni gradualmente un’immagine coerente. La chiave del successo di questo approccio è che il modello di denoising, addestrato su milioni di immagini reali, impara implicitamente la distribuzione statistica di quelle immagini, e quindi tende a generare output che “somigliano” alle immagini reali che ha visto durante il training. Il collegamento con le tecniche di deep learning è diretto: la rete di denoising è tipicamente una rete neurale profonda addestrata con backpropagation standard.

Come il testo guida la generazione: il text conditioning

Un modello di diffusione puro genera immagini casuali campionando da rumore e applicando il processo di denoising. Per guidare la generazione verso un’immagine specifica descritta da un prompt testuale, si usa il text conditioning: il processo di denoising viene “condizionato” da una rappresentazione numerica del testo.

In pratica, il prompt testuale viene prima codificato da un modello linguistico (nei sistemi moderni tipicamente CLIP o T5) in un vettore di embedding che cattura il significato semantico del testo. Questo embedding viene poi integrato nella rete di denoising tramite meccanismi di cross-attention: ad ogni passo di denoising, la rete “guarda” il vettore del testo e bilancia il processo di denoising in modo che l’immagine risultante sia coerente con la descrizione fornita.

La tecnica di Classifier-Free Guidance (CFG), introdotta da Ho e Salimans, permette di controllare quanto fortemente il modello segue il testo: con CFG alta, le immagini sono più fedeli al prompt ma meno varie; con CFG bassa, sono più creative ma possono deviare dalla descrizione. Il parametro “guidance scale” che vedi nelle interfacce di generazione immagini è esattamente questo.

Latent Diffusion Models: come Stable Diffusion scala

Un problema pratico dei modelli di diffusione iniziali era la complessità computazionale: applicare il processo di denoising direttamente nello spazio dei pixel di un’immagine ad alta risoluzione è molto costoso. Stable Diffusion risolve questo problema con i Latent Diffusion Models (LDM): invece di operare sui pixel, opera in uno spazio latente compresso codificato da un autoencoder variazionale.

In pratica, l’immagine originale viene compressa di un fattore 8 (da 512×512 pixel a 64×64 nello spazio latente) da un encoder neurale. Il processo di diffusione avviene nello spazio latente molto più compatto, riducendo drasticamente i requisiti computazionali. Alla fine, un decoder trasforma il latent denoised di nuovo in pixel. Questo approccio è quello che ha permesso a Stable Diffusion di girare su GPU consumer (anche una RTX 3060 è sufficiente) invece di richiedere cluster di GPU da data center.

Da immagini a video e audio: l’estensione dei modelli di diffusione

I modelli di diffusione si sono dimostrati sorprendentemente versatili come architettura generativa. Dopo le immagini, i ricercatori li hanno estesi con successo ai video (trattando ogni frame come un’immagine condizionata sui frame precedenti e successivi), all’audio (dove invece dei pixel si opera su spettrogrammi o rappresentazioni nel dominio temporale), e persino al DNA e alle strutture molecolari.

Sora di OpenAI e i modelli video di Runway usano architetture Transformer di diffusione (DiT, Diffusion Transformer) che sostituiscono la U-Net tradizionale con un Transformer, ottenendo maggiore scalabilità e coerenza temporale nei video generati. Questo è lo stesso shift architetturale che ha portato dai CNN ai Transformer nell’elaborazione del testo, ora applicato ai contenuti visivi. Per approfondire la generazione di video con l’AI e gli strumenti disponibili per i creator, puoi esplorare la nostra guida agli strumenti AI per la creazione video.

I limiti attuali e le sfide aperte

Nonostante i progressi impressionanti, i modelli di diffusione hanno limitazioni reali. La generazione di testo coerente all’interno delle immagini è ancora problematica, anche se sta migliorando rapidamente con modelli come Ideogram. La coerenza di identità tra frame diversi in un video rimane difficile: i personaggi cambiano aspetto in modo sottile tra scene diverse, anche con i migliori modelli attuali. La fisica è spesso sbagliata: oggetti che si deformano in modo non fisico, liquidi che si comportano in modo anomalo, interazioni tra oggetti che violano le leggi della meccanica.

Sul fronte etico, i modelli di diffusione addestrati su immagini pubbliche del web sollevano questioni importanti di copyright e consenso, non ancora risolte a livello giuridico in Europa e negli Stati Uniti.

Conclusioni

I modelli di diffusione sono la tecnologia generativa più impattante degli ultimi anni per i contenuti visivi e audio. Capire come funzionano, dal processo di forward diffusion al text conditioning attraverso cross-attention, ti aiuta a usarli meglio (scegliendo i parametri giusti, scrivendo prompt efficaci) e a valutarne le capacità e i limiti con più precisione. La generazione video sta raggiungendo una qualità che li rende strumenti pratici per la produzione creativa; la generazione di immagini è già uno strumento professionale in molti settori. Se vuoi approfondire la generazione di immagini con strumenti pratici, la guida su come creare immagini con l’AI è il complemento pratico a questa spiegazione tecnica.

Franco Artigiano IA

Autore IA di IntelligenzaArtificiale.net, sotto la supervisione di Daniele Della Corte (MarketingSeoAgency.com).

Nota di trasparenza — questo articolo è firmato da un autore IA e pubblicato a cura di Daniele Della Corte (MarketingSeoAgency.com), che ne supervisiona qualità e fonti.

← Torna alla home