Mano robotica e mano umana che si tendono l'una verso l'altra

Gemini 3.5 Flash e l’uso del computer: arrivano gli agenti AI di Google

Mentre il dibattito sull’intelligenza artificiale ruota intorno ai modelli sempre più potenti, una parte decisiva della partita si sta giocando su un terreno diverso: la capacità dei modelli di agire al posto tuo, non solo di rispondere. Il 24 giugno 2026 Google ha annunciato che la funzione di uso del computer, in inglese computer use, è diventata uno strumento integrato in Gemini 3.5 Flash. Tradotto in termini pratici, significa che gli sviluppatori possono costruire agenti capaci di vedere uno schermo, ragionare su cosa fare e compiere azioni concrete su browser, dispositivi mobili e computer desktop. È un passaggio che sposta gli agenti dal territorio delle demo a quello degli strumenti realmente utilizzabili, e che dice molto sulla direzione del settore.

L’uso del computer arriva dentro Gemini 3.5 Flash

Fino a poco tempo fa, la capacità di controllare un’interfaccia software era disponibile come modello separato e dedicato, costruito sulla generazione precedente. Con questo annuncio, Google Gemini compie un salto: l’uso del computer diventa una funzione nativa del modello Flash principale, cioè la variante pensata per essere veloce ed economica. Non è un dettaglio da poco. Integrare questa capacità direttamente nel modello più leggero della famiglia abbassa la barriera per chi vuole creare automazioni, perché unisce in un unico strumento ciò che prima richiedeva componenti distinti.

Da modello separato a strumento integrato

Gemini era già bravo in due cose che fanno da fondamenta a un agente: la chiamata di funzioni, cioè la capacità di invocare strumenti esterni in modo strutturato, e l’uso di strumenti integrati come la ricerca e la consultazione delle mappe. Con l’uso del computer ora integrato, gli sviluppatori possono costruire agenti personalizzati che vedono l’interfaccia, ragionano sul contesto e agiscono attraverso ambienti diversi. Google dichiara che si tratta delle migliori prestazioni mai raggiunte dall’azienda nei compiti agentici legati all’uso del computer. La capacità viene resa disponibile attraverso l’API di Gemini e la piattaforma per agenti pensata per le aziende, ed è offerta in anteprima pubblica a partire dalla data dell’annuncio.

Come funziona un agente che usa il computer

Il meccanismo è più semplice di quanto sembri, almeno nel principio. All’agente fornisci uno schermo e un obiettivo. Il modello osserva ciò che appare a video, interpreta gli elementi dell’interfaccia e pianifica il passo successivo. A quel punto produce un comando preciso, ad esempio un clic in un punto esatto dello schermo oppure la digitazione di un testo in un campo. L’ambiente esegue il comando, scatta una nuova immagine dello schermo aggiornato e il ciclo ricomincia, finché l’obiettivo non è raggiunto. È lo stesso schema che useresti tu davanti al computer, guardare, decidere, cliccare, verificare il risultato, con la differenza che qui a guidare la sequenza è il modello. Questo approccio, fondato sulla lettura visiva dell’interfaccia, permette di operare anche su applicazioni che non offrono un accesso tecnico diretto, perché l’agente interagisce con ciò che vede, proprio come farebbe una persona. Se vuoi un ripasso dei concetti di base che stanno sotto a tutto questo, è utile rivedere cosa si intende davvero per intelligenza artificiale.

A cosa serve: test del software, automazione e lavoro di conoscenza

La domanda più utile da porsi davanti a una novità tecnica è sempre la stessa: a cosa serve in concreto. Google indica due grandi famiglie di applicazioni. La prima è l’automazione di lungo periodo nelle aziende, con esempi come il collaudo continuo del software, dove un agente può ripetere senza stancarsi sequenze di verifica su un’applicazione, individuando errori e comportamenti anomali. La seconda è il lavoro di conoscenza svolto attraverso applicazioni professionali, cioè tutte quelle attività ripetitive che oggi ti costringono a passare ore tra schermate, moduli e gestionali. Tra i primi a sperimentare la funzione ci sono realtà specializzate nell’automazione dei processi e nella gestione di browser per agenti, segno che l’interesse iniziale arriva soprattutto dal mondo dell’impresa e dello sviluppo.

Per capire la portata della cosa conviene pensare a quanto lavoro digitale, ancora oggi, consiste nello spostare informazioni da un punto a un altro: copiare dati da un’email a un gestionale, compilare report, controllare lo stato di un ordine su più sistemi. Un agente che sa usare il computer come una persona può occuparsi di questi compiti, liberando tempo per attività a maggior valore. Non a caso il tema dell’automazione intelligente si lega a doppio filo con le applicazioni dell’AI nel marketing e nella produttività, ambiti in cui la capacità di agire, e non solo di suggerire, fa una differenza enorme.

Il nodo della sicurezza: prompt injection e contromisure

Dare a un modello la possibilità di cliccare e digitare al posto tuo apre però un fronte di rischio nuovo. Il pericolo principale si chiama prompt injection indiretta: in pratica, istruzioni malevole nascoste in una pagina web o in un documento che l’agente sta leggendo possono provare a dirottarne il comportamento, spingendolo a compiere azioni che non avresti mai autorizzato. È un problema serio, perché un conto è un modello che genera una risposta sbagliata, un altro è un agente che esegue un’azione dannosa nel mondo reale, come inviare dati o modificare impostazioni.

Per ridurre questo rischio, Google ha applicato un addestramento mirato contro gli attacchi e ha reso disponibili due protezioni opzionali pensate per le aziende. La prima consente di richiedere una conferma esplicita da parte dell’utente prima di compiere azioni sensibili o irreversibili. La seconda permette di fermare automaticamente un’attività se viene rilevato un tentativo di prompt injection indiretta. A queste misure si affianca il consiglio di adottare un approccio a più livelli, con ambienti isolati e controllati, supervisione umana nei passaggi critici e controlli rigorosi sugli accessi. È un punto su cui vale la pena soffermarsi: la maturità di queste tecnologie non si misura solo da quanto sono capaci, ma da quanto sono sicure quando agiscono in autonomia.

Perché è una tendenza e cosa aspettarti

L’annuncio di Google non va letto da solo, ma dentro un movimento più ampio. Nelle stesse settimane anche OpenAI ha spinto sul ragionamento prolungato e sull’orchestrazione di più agenti con il suo GPT-5.6 di OpenAI, mentre l’intero settore converge sull’idea che il prossimo grande salto non sarà un modello che parla meglio, ma un sistema che fa le cose. Gli agenti che usano il computer rappresentano una nuova interfaccia tra le persone e il software, potenzialmente capace di scavalcare il modo in cui usiamo le applicazioni da decenni. Per ora siamo in una fase di anteprima rivolta a sviluppatori e aziende, quindi non aspettarti di trovare domani un agente del genere nell’app che usi tutti i giorni. Ma la traiettoria è chiara, e conviene farsi trovare preparati. Se vuoi muovere i primi passi e capire come sfruttare davvero queste novità, ti consigliamo la nostra guida su come imparare l’intelligenza artificiale.

Conclusioni

L’integrazione dell’uso del computer in Gemini 3.5 Flash è una di quelle notizie che oggi sembrano tecniche e di nicchia, ma che tra un anno potremmo ricordare come un punto di svolta. Mettere la capacità di agire dentro un modello veloce ed economico significa rendere l’automazione intelligente accessibile a molte più aziende e sviluppatori, con tutto ciò che ne consegue in termini di produttività e, allo stesso tempo, di responsabilità sulla sicurezza. Il consiglio è di guardare a questi strumenti con curiosità e spirito critico: capire come funzionano ti permette di coglierne le opportunità senza subirni i rischi. Continua a seguire i nostri approfondimenti per restare aggiornato sulle prossime mosse di Google e degli altri protagonisti del settore. L’annuncio completo è consultabile sul blog ufficiale di Google.

Suggerimento di lettura

Schermo con dati e proiezioni future - WEF tendenze AI 2030

Il World Economic Forum pubblica le 10 tecnologie AI che trasformeranno i settori entro il 2030

Il report WEF 2026 identifica le 10 tecnologie AI emergenti più impattanti dei prossimi 4 anni: dagli agenti autonomi ai modelli AI per la biologia molecolare.