Anthropic ha rilasciato il 28 maggio 2026 Claude Opus 4.8, il nuovo modello di punta della sua famiglia di intelligenze artificiali. Non si tratta di un aggiornamento minore: Opus 4.8 segna un salto qualitativo significativo nelle capacità agentiche, nella precisione del codice e nell’affidabilità generale del modello. Se hai già usato versioni precedenti di Claude, troverai un assistente notevolmente più autonomo e meno incline a commettere errori senza segnalarli. Se invece sei nuovo a questo mondo, Opus 4.8 rappresenta uno dei migliori punti di ingresso per capire dove sta andando l’intelligenza artificiale generativa nel 2026.
Cosa cambia davvero con Claude Opus 4.8
Il cambiamento più importante riguarda le capacità agentiche, ovvero la capacità del modello di operare autonomamente su compiti complessi e prolungati. Anthropic ha progettato Opus 4.8 per essere un vero e proprio “agente autonomo”, un sistema capace non solo di rispondere a domande ma di pianificare una sequenza di azioni, eseguirle e correggere il percorso quando qualcosa non va come previsto.
Su questo fronte, il benchmark più emblematico è Online-Mind2Web, che misura la capacità di un modello di navigare in autonomia su siti web reali, compilare form, interagire con interfacce grafiche e portare a termine missioni complesse. Claude Opus 4.8 ottiene un punteggio dell’84%, un miglioramento netto rispetto a Opus 4.7 e sufficiente a superare GPT-5.5 di OpenAI a parità di costo. Su OSWorld-Verified il modello raggiunge l’83,4%, confermandosi il più capace in circolazione per questo tipo di compiti.
C’è poi il benchmark Super-Agent, forse il più esigente: Opus 4.8 è l’unico modello a completare tutti i casi proposti dall’inizio alla fine, senza intervento umano. Un risultato che fa capire quanto Anthropic abbia puntato su affidabilità e autonomia come valori fondamentali di questa versione.
Nel coding, il miglioramento è altrettanto significativo. Il punteggio agentico sul codice passa dal 64,3% al 69,2%, ma il dato più interessante è qualitativo: Opus 4.8 è circa quattro volte meno incline rispetto al predecessore a lasciare passare un difetto nel codice senza segnalarlo. Se stai usando Claude per sviluppare software o automatizzare flussi di lavoro, questo si traduce in sessioni più affidabili, con meno bug nascosti e più trasparenza sulle incertezze del modello.
Il tema dell’onestà: un modello che ammette quando non sa
Uno degli aspetti più interessanti emersi dai primi test è l’atteggiamento del modello verso i propri limiti. Anthropic ha dichiarato apertamente che Opus 4.8 è stato sviluppato con un’attenzione particolare alla cosiddetta “onestà calibrata”: il modello ha maggiori probabilità di segnalare incertezze, è meno incline a fare affermazioni non supportate dai dati e tende a chiedere chiarimenti prima di intraprendere azioni rischiose in un contesto agentico.
Questo non significa che il modello sia più cauto in modo frustrante. Al contrario, la logica è quella di costruire fiducia a lungo termine: un agente che sa quando fermarsi e chiedere conferma è molto più utile in contesti professionali rispetto a uno che procede spedito ma fa errori silenziosi. In Claude Code, per esempio, Opus 4.8 pone domande più pertinenti prima di fare modifiche grandi in ambienti multi-servizio e riesce a costruire una comprensione progressiva della complessità del progetto prima di agire.
I primi tester hanno riferito che il modello è anche notevolmente più fermo nel respingere piani che giudica non validi, anche quando l’utente insiste. Questo è una caratteristica pensata per i contesti in cui il modello opera con alta autonomia: meglio che ti avvisi subito di un problema piuttosto che eseguire istruzioni sbagliate fino in fondo.
Controllo dello sforzo computazionale e nuovi workflow
Una delle novità più interessanti è la possibilità di regolare la profondità di elaborazione del modello. Su claude.ai, puoi ora indicare al modello quanta elaborazione dedicare a un compito, trovando un equilibrio tra velocità di risposta e profondità di analisi. Per domande rapide e operative, puoi richiedere una risposta concisa e immediata. Per problemi complessi che richiedono ragionamento a più livelli, puoi attivare una modalità di elaborazione più profonda.
Questo si integra con il lavoro che Anthropic sta facendo sui Dynamic Workflows, una funzionalità che consentirà di orchestrare decine o centinaia di sotto-agenti in parallelo all’interno di una singola sessione. Claude Opus 4.8 può già decomporre un problema complesso in sotto-task, distribuirli a istanze specializzate, verificare i risultati parziali e aggregarli in un output coerente. Se hai già letto la nostra guida completa agli agenti AI, riconoscerai in queste caratteristiche la direzione verso cui si sta muovendo l’intero settore.
Prezzi, disponibilità e confronto con la concorrenza
Dal punto di vista economico, Opus 4.8 ha un prezzo di partenza di 5 dollari per milione di token in input e 25 dollari per milione di token in output tramite le API. Con il prompt caching si arriva fino al 90% di risparmio, e il batch processing offre un ulteriore 50% di sconto. Rispetto a GPT-5.5, il posizionamento è competitivo: Anthropic dichiara prestazioni superiori nei benchmark agentici a parità di costo, il che lo rende una scelta razionale per chi sviluppa applicazioni in cui l’autonomia del modello è un requisito critico.
Il modello è disponibile subito per gli utenti Claude Pro, Max, Team ed Enterprise su claude.ai. Per gli sviluppatori, è accessibile via API nativamente e tramite Amazon Web Services, Google Cloud e Microsoft Foundry. Questo lo rende integrabile nella stragrande maggioranza degli stack tecnologici già in uso nelle aziende, senza dover migrare infrastrutture.
Il confronto con GPT-5.5 Instant di OpenAI, rilasciato all’inizio di maggio 2026, è inevitabile. I due modelli si posizionano in modo complementare: GPT-5.5 Instant ha portato miglioramenti nella qualità delle risposte quotidiane, mentre Opus 4.8 è pensato per chi vuole costruire o usare agenti AI in contesti professionali e di sviluppo. La partita tra i due si giocherà soprattutto sui casi d’uso enterprise, dove l’affidabilità a lungo termine pesa quanto le prestazioni su singoli task.
Perché questo modello conta per il futuro dell’AI
Il rilascio di Claude Opus 4.8 arriva in un momento in cui il dibattito sull’AI agentica ha superato la fase accademica ed è entrato nelle agende delle aziende e delle istituzioni. Le principali agenzie di cybersecurity dei paesi alleati occidentali hanno da poco pubblicato le prime linee guida congiunte per l’adozione sicura degli agenti AI, segno che la tecnologia ha raggiunto una diffusione tale da richiedere attenzione regolatoria. Anthropic stessa, con questo modello, sta dimostrando che sicurezza e autonomia non sono in contraddizione.
Per chi segue l’evoluzione dell’intelligenza artificiale, Opus 4.8 è un indicatore importante di dove si trova la frontiera nel 2026: modelli che non si limitano a rispondere ma agiscono, che non si limitano a generare codice ma lo verificano, che non si limitano a completare un compito ma valutano se quel compito ha senso.
Se vuoi esplorare l’evoluzione complessiva di questo tipo di tecnologia, ti consiglio di leggere il nostro articolo su Google I/O 2026 e Gemini 3.5 Flash, che racconta l’altra grande scommessa agentica del momento.
Conclusioni
Claude Opus 4.8 è il modello AI più avanzato di Anthropic e, al momento del suo rilascio, il più capace in assoluto per compiti agentici che coinvolgono l’uso del computer e la navigazione web autonoma. L’84% su Online-Mind2Web e il completamento integrale del Super-Agent benchmark sono risultati concreti, non marketing. Altrettanto concreta è la scelta di puntare sull’onestà del modello come fattore differenziante: in un settore dove i modelli tendono a essere addestrati per sembrare sicuri anche quando non lo sono, Opus 4.8 fa il contrario. Se usi già Claude per lavoro o sviluppo, vale la pena testarlo direttamente su claude.ai.
Intelligenza Artificiale Tutto su AI e machine learning