Il 5 aprile 2025, Meta ha rilasciato Llama 4, la quarta generazione della sua famiglia di modelli di linguaggio open source, e l’AI world non è stata più la stessa. Con un’architettura Mixture of Experts (MoE), capacità multimodali native e modelli che vanno da 17 miliardi a oltre 400 miliardi di parametri, Llama 4 non è solo un aggiornamento: è una dichiarazione strategica. Meta sta dimostrando che i modelli open source possono competere — e in alcuni benchmark superare — i modelli proprietari più potenti di OpenAI e Google.
L’architettura Mixture of Experts: perché cambia tutto
La grande innovazione tecnica di Llama 4 è l’adozione dell’architettura Mixture of Experts (MoE). In un modello transformer tradizionale, ogni token del testo viene elaborato da tutti i parametri del modello. In un modello MoE, invece, la rete è divisa in “esperti” specializzati e un meccanismo di routing seleziona dinamicamente solo un sottoinsieme di esperti per ogni token, tipicamente il 10-20% del totale.
Il vantaggio è enorme in termini di efficienza: Llama 4 Scout, il modello più leggero della famiglia con 17 miliardi di parametri attivi, ha in realtà 109 miliardi di parametri totali ma attiva solo una frazione per ogni inferenza, risultando circa 5 volte più veloce di un modello denso equivalente. Llama 4 Maverick, il modello di medie dimensioni, ha 17 miliardi di parametri attivi su 400 miliardi totali ed è il punto di forza della famiglia: nei benchmark supera GPT-4o e Claude 3.5 Sonnet su coding, ragionamento matematico e comprensione multimodale.
Il modello di punta, Llama 4 Behemoth, è ancora in addestramento al momento del rilascio. Con oltre 2 trilioni di parametri totali (288 miliardi attivi), è il modello più grande mai rilasciato pubblicamente e supera GPT-4.5 e Gemini Ultra su diversi benchmark STEM.
Multimodalità nativa: vedere, ascoltare e capire
A differenza delle versioni precedenti, Llama 4 è multimodale fin dall’architettura di base, non come add-on separato. Il modello può elaborare testo e immagini in modo integrato, con una finestra di contesto da 10 milioni di token — la più lunga disponibile su qualsiasi modello open source e superiore a quasi tutti i modelli proprietari.
Questa finestra di contesto estesa ha implicazioni pratiche enormi: un singolo prompt può contenere l’intero codice sorgente di un progetto software di medie dimensioni, centinaia di pagine di documentazione o decine di immagini ad alta risoluzione. Per i casi d’uso aziendali che richiedono l’analisi di grandi volumi di documenti — contratti legali, relazioni finanziarie, dataset scientifici — questo è un vantaggio competitivo significativo.
Performance nei benchmark
Meta ha pubblicato risultati di benchmark estensivi per Llama 4. Su MMLU (Massive Multitask Language Understanding), Llama 4 Maverick ottiene 85,5%, superando GPT-4o (85,7%) ed eguagliando Claude 3.5 Sonnet (88,3%). Su HumanEval (coding), Maverick ottiene 89,4%, secondo solo a GPT-4o Turbo. Su MATH (ragionamento matematico), Behemoth ottiene 96,8%, record assoluto per un modello AI.
I critici fanno notare che i benchmark scelti da Meta favoriscono i propri modelli e che prestazioni reali possono divergere dai risultati di laboratorio. Valutazioni indipendenti di ricercatori come Hugging Face e scale.ai mostrano risultati leggermente più modesti ma comunque impressionanti, confermando che Llama 4 Maverick è genuinamente competitivo con i migliori modelli proprietari.
Open source con eccezioni
Meta definisce Llama 4 “open source”, ma il termine ha sfumature importanti. I pesi del modello sono scaricabili liberamente da Meta AI e Hugging Face, ma la licenza commerciale impone restrizioni: le aziende con oltre 700 milioni di utenti mensili attivi devono richiedere una licenza speciale a Meta (una clausola che punta esplicitamente a concorrenti come Google e Apple). L’uso per addestrare altri modelli AI è soggetto a restrizioni specifiche.
Nonostante queste limitazioni, Llama 4 è enormemente più aperto di GPT-4o o Gemini, che non rilasciano i pesi né i dettagli architetturali. La comunità open source ha già iniziato a sviluppare versioni fine-tuned, quantizzate e specializzate di Llama 4 per decine di use case specifici, replicando la storia di successo dei modelli Llama precedenti.
Le implicazioni per l’ecosistema AI
Il rilascio di Llama 4 ha implicazioni profonde per l’intero ecosistema AI. Per le aziende, rende disponibile un modello di capacità enterprise-grade che può essere eseguito on-premise, eliminando i costi di API e le preoccupazioni sulla privacy dei dati. Un’azienda può ora deployare Llama 4 Maverick su infrastruttura propria per task come analisi di documenti riservati, customer service automatizzato o assistenza al coding interno, senza inviare dati a OpenAI o Google.
Per i ricercatori, avere accesso ai pesi di un modello front-tier permette esperimenti di fine-tuning, analisi delle rappresentazioni interne e ricerca sulla sicurezza che non sono possibili con modelli proprietari. Per OpenAI e Google, la competizione si fa più acuta: mantenere un vantaggio qualitativo sui modelli open source richiede investimenti crescenti, e il vantaggio si riduce con ogni release di Meta.
Per comprendere come questi modelli si confrontano nell’uso quotidiano, leggi il nostro articolo su ChatGPT, Gemini e Claude: quale assistente AI scegliere. Il landscape dei modelli AI open source è anche cruciale per la ricerca sull’apprendimento rinforzato, che sta trasformando come questi modelli vengono allineati.
Come iniziare con Llama 4
Per chi vuole sperimentare con Llama 4, ci sono diverse opzioni. La più semplice è usare Meta AI, l’interfaccia chatbot gratuita di Meta integrata in WhatsApp, Instagram e Facebook, che usa Llama 4 come backend. Per uso programmatico, i modelli sono disponibili su Hugging Face previo accettazione della licenza e su Together AI, Fireworks AI e Groq tramite API competitive con OpenAI. Per chi vuole eseguirlo localmente, Ollama supporta versioni quantizzate di Llama 4 Scout che girano su Mac con M-series chip con almeno 32GB di RAM.
Intelligenza Artificiale Tutto su AI e machine learning