Llama 4: Meta lancia il modello AI open source più potente e sfida GPT-4o

Indice dei contenuti

Il 5 aprile 2025, Meta ha rilasciato Llama 4, la quarta generazione della sua famiglia di modelli di linguaggio open source, e l’AI world non è stata più la stessa. Con un’architettura Mixture of Experts (MoE), capacità multimodali native e modelli che vanno da 17 miliardi a oltre 400 miliardi di parametri, Llama 4 non è solo un aggiornamento: è una dichiarazione strategica. Meta sta dimostrando che i modelli open source possono competere , e in alcuni benchmark superare , i modelli proprietari più potenti di OpenAI e Google.

L’architettura Mixture of Experts: perché cambia tutto

La grande innovazione tecnica di Llama 4 è l’adozione dell’architettura Mixture of Experts (MoE). In un modello transformer tradizionale, ogni token del testo viene elaborato da tutti i parametri del modello. In un modello MoE, invece, la rete è divisa in “esperti” specializzati e un meccanismo di routing seleziona dinamicamente solo un sottoinsieme di esperti per ogni token, tipicamente il 10-20% del totale.

Il vantaggio è enorme in termini di efficienza: Llama 4 Scout, il modello più leggero della famiglia con 17 miliardi di parametri attivi, ha in realtà 109 miliardi di parametri totali ma attiva solo una frazione per ogni inferenza, risultando circa 5 volte più veloce di un modello denso equivalente. Llama 4 Maverick, il modello di medie dimensioni, ha 17 miliardi di parametri attivi su 400 miliardi totali ed è il punto di forza della famiglia: nei benchmark supera GPT-4o e Claude 3.5 Sonnet su coding, ragionamento matematico e comprensione multimodale.

Il modello di punta, Llama 4 Behemoth, è ancora in addestramento al momento del rilascio. Con oltre 2 trilioni di parametri totali (288 miliardi attivi), è il modello più grande mai rilasciato pubblicamente e supera GPT-4.5 e Gemini Ultra su diversi benchmark STEM.

Multimodalità nativa: vedere, ascoltare e capire

A differenza delle versioni precedenti, Llama 4 è multimodale fin dall’architettura di base, non come add-on separato. Il modello può elaborare testo e immagini in modo integrato, con una finestra di contesto da 10 milioni di token , la più lunga disponibile su qualsiasi modello open source e superiore a quasi tutti i modelli proprietari.

Questa finestra di contesto estesa ha implicazioni pratiche enormi: un singolo prompt può contenere l’intero codice sorgente di un progetto software di medie dimensioni, centinaia di pagine di documentazione o decine di immagini ad alta risoluzione. Per i casi d’uso aziendali che richiedono l’analisi di grandi volumi di documenti , contratti legali, relazioni finanziarie, dataset scientifici , questo è un vantaggio competitivo significativo.

Performance nei benchmark

Meta ha pubblicato risultati di benchmark estensivi per Llama 4. Su MMLU (Massive Multitask Language Understanding), Llama 4 Maverick ottiene 85,5%, superando GPT-4o (85,7%) ed eguagliando Claude 3.5 Sonnet (88,3%). Su HumanEval (coding), Maverick ottiene 89,4%, secondo solo a GPT-4o Turbo. Su MATH (ragionamento matematico), Behemoth ottiene 96,8%, record assoluto per un modello AI.

I critici fanno notare che i benchmark scelti da Meta favoriscono i propri modelli e che prestazioni reali possono divergere dai risultati di laboratorio. Valutazioni indipendenti di ricercatori come Hugging Face e scale.ai mostrano risultati leggermente più modesti ma comunque impressionanti, confermando che Llama 4 Maverick è genuinamente competitivo con i migliori modelli proprietari.

Open source con eccezioni

Meta definisce Llama 4 “open source”, ma il termine ha sfumature importanti. I pesi del modello sono scaricabili liberamente da Meta AI e Hugging Face, ma la licenza commerciale impone restrizioni: le aziende con oltre 700 milioni di utenti mensili attivi devono richiedere una licenza speciale a Meta (una clausola che punta esplicitamente a concorrenti come Google e Apple). L’uso per addestrare altri modelli AI è soggetto a restrizioni specifiche.

Nonostante queste limitazioni, Llama 4 è enormemente più aperto di GPT-4o o Gemini, che non rilasciano i pesi né i dettagli architetturali. La comunità open source ha già iniziato a sviluppare versioni fine-tuned, quantizzate e specializzate di Llama 4 per decine di use case specifici, replicando la storia di successo dei modelli Llama precedenti.

Le implicazioni per l’ecosistema AI

Il rilascio di Llama 4 ha implicazioni profonde per l’intero ecosistema AI. Per le aziende, rende disponibile un modello di capacità enterprise-grade che può essere eseguito on-premise, eliminando i costi di API e le preoccupazioni sulla privacy dei dati. Un’azienda può ora deployare Llama 4 Maverick su infrastruttura propria per task come analisi di documenti riservati, customer service automatizzato o assistenza al coding interno, senza inviare dati a OpenAI o Google.

Per i ricercatori, avere accesso ai pesi di un modello front-tier permette esperimenti di fine-tuning, analisi delle rappresentazioni interne e ricerca sulla sicurezza che non sono possibili con modelli proprietari. Per OpenAI e Google, la competizione si fa più acuta: mantenere un vantaggio qualitativo sui modelli open source richiede investimenti crescenti, e il vantaggio si riduce con ogni release di Meta.

Per comprendere come questi modelli si confrontano nell’uso quotidiano, leggi il nostro articolo su ChatGPT, Gemini e Claude: quale assistente AI scegliere. Il landscape dei modelli AI open source è anche cruciale per la ricerca sull’apprendimento rinforzato, che sta trasformando come questi modelli vengono allineati.

Come iniziare con Llama 4

Per chi vuole sperimentare con Llama 4, ci sono diverse opzioni. La più semplice è usare Meta AI, l’interfaccia chatbot gratuita di Meta integrata in WhatsApp, Instagram e Facebook, che usa Llama 4 come backend. Per uso programmatico, i modelli sono disponibili su Hugging Face previo accettazione della licenza e su Together AI, Fireworks AI e Groq tramite API competitive con OpenAI. Per chi vuole eseguirlo localmente, Ollama supporta versioni quantizzate di Llama 4 Scout che girano su Mac con M-series chip con almeno 32GB di RAM.

Intelligenza Artificiale Tutto su AI e machine learning

Llama 4: Meta lancia il modello AI open source più potente e sfida GPT-4o

L’architettura Mixture of Experts: perché cambia tutto

Multimodalità nativa: vedere, ascoltare e capire

Performance nei benchmark

Open source con eccezioni

Le implicazioni per l’ecosistema AI

Come iniziare con Llama 4

Articoli correlati

Suggerimento di lettura

Perplexity lancia Comet, il browser AI che ragiona e agisce mentre navighi

Llama 4: Meta lancia il modello AI open source più potente e sfida GPT-4o

L’architettura Mixture of Experts: perché cambia tutto

Multimodalità nativa: vedere, ascoltare e capire

Performance nei benchmark

Open source con eccezioni

Le implicazioni per l’ecosistema AI

Come iniziare con Llama 4

Articoli correlati

Anthropic lancia Reflect, la funzione di Claude per usare l’AI con più consapevolezza

Anthropic porta Claude Cowork su mobile e web: cosa cambia e cosa succede a Fable 5

OpenAI ritira GPT-5.2 da ChatGPT: cosa cambia con il passaggio a GPT-5.5

Suggerimento di lettura

Perplexity lancia Comet, il browser AI che ragiona e agisce mentre navighi