Persone che partecipano a una videochiamata di lavoro su un computer portatile
Foto: Pexels

Google lancia Gemini 3.5 Live Translate: la traduzione vocale in tempo reale in oltre 70 lingue

La barriera della lingua è uno degli ostacoli più antichi alla comunicazione umana, e l’intelligenza artificiale sta provando ad abbatterla in tempo reale. Il 9 giugno 2026 Google ha presentato Gemini 3.5 Live Translate, il suo nuovo modello audio capace di tradurre il parlato da una lingua all’altra quasi istantaneamente, in oltre 70 lingue. Non si tratta della classica traduzione che aspetta la fine della frase, ma di un flusso continuo che resta a pochi secondi di distanza da chi parla, preservando intonazione, ritmo e tono della voce. È un passo che porta la traduzione vocale dentro strumenti che usi tutti i giorni, dall’app Google Translate alle videochiamate su Google Meet, fino alle interfacce per sviluppatori.

Cos’è Gemini 3.5 Live Translate e come funziona

Gemini 3.5 Live Translate è un modello pensato specificamente per la traduzione vocale da voce a voce, cioè da audio parlato ad audio parlato, senza il passaggio intermedio di un testo da leggere. La differenza rispetto ai sistemi tradizionali è sostanziale. La maggior parte dei traduttori automatici lavora a turni: aspetta che tu finisca di parlare, elabora la frase e solo dopo restituisce la traduzione. Questo approccio funziona, ma introduce pause innaturali che spezzano il ritmo di una conversazione.

Il nuovo modello, invece, genera la voce tradotta in modo continuo, bilanciando un compromesso delicato: attendere abbastanza contesto per tradurre con precisione, ma non così tanto da perdere la sincronia con chi sta parlando. Il risultato è un audio fluido, senza interruzioni imbarazzanti, che rimane appena qualche secondo indietro rispetto alla voce originale per tutta la durata della sessione. Il sistema riconosce automaticamente più di 70 lingue, gestisce input multilingue senza bisogno di configurazioni manuali ed è progettato per restare robusto anche in ambienti rumorosi e imprevedibili. In altre parole, prova a comportarsi come un interprete umano, capace di seguire il discorso mantenendo il senso e una resa naturale.

Perché la naturalezza della voce conta

Un dettaglio che vale la pena sottolineare è la cura per le caratteristiche prosodiche del parlato. Conservare intonazione, pause e altezza della voce non è un vezzo estetico: è ciò che rende una traduzione comprensibile e credibile. Una frase pronunciata con tono interrogativo, ironico o enfatico cambia significato, e un sistema che appiattisce tutto in una voce monotona rischia di tradire il messaggio originale. Questa attenzione alla qualità dell’esperienza si inserisce nel percorso più ampio della famiglia di modelli Gemini di Google, che negli ultimi mesi ha spinto molto sull’idea di un’AI capace non solo di capire, ma anche di agire e interagire in modo fluido.

Dove arriva Live Translate: app, riunioni e sviluppatori

La forza dell’annuncio sta nella distribuzione capillare. Gemini 3.5 Live Translate non resta confinato in un laboratorio, ma arriva subito su più fronti. Per gli sviluppatori è disponibile in anteprima pubblica tramite la Gemini Live API e Google AI Studio, così da poter costruire applicazioni di traduzione vocale per chiamate, riunioni, lezioni e dirette. Diverse piattaforme di sviluppo, da LiveKit ad Agora fino a Pipecat, hanno già integrato l’API per gestire la complessa infrastruttura di streaming audio in tempo reale, lasciando agli sviluppatori il compito di concentrarsi sull’esperienza d’uso.

Sul versante consumer, il modello sta arrivando nell’app Google Translate sia su Android sia su iOS. Collegando un qualsiasi paio di cuffie puoi sperimentare una traduzione più continua, che riproduce il tono di chi parla in oltre 70 lingue. Per Android è in distribuzione anche una nuova modalità di ascolto che lascia sentire la traduzione direttamente dall’altoparlante del telefono: basta avvicinare il dispositivo all’orecchio come in una telefonata normale e l’audio tradotto arriva in privato, utile quando non hai le cuffie a portata di mano e non vuoi che gli altri sentano.

Il terzo fronte è quello aziendale, con l’integrazione in Google Meet a partire da questo mese in anteprima privata per alcuni clienti business di Google Workspace. Qui il salto è notevole: la traduzione del parlato passa dalle precedenti cinque lingue a oltre settanta, abilitando più di 2.000 combinazioni linguistiche all’interno di una stessa riunione, mentre prima era possibile tradurre soltanto da e verso l’inglese. Per chi lavora in team distribuiti su più paesi, è il tipo di funzione che può cambiare il modo di fare le riunioni, e si collega bene al tema più ampio di come integrare l’AI nei processi aziendali in modo concreto.

Perché è importante e cosa cambia per te

Per capire la portata di questo annuncio basta un dato di contesto: Google ricorda che la traduzione, nata vent’anni fa come uno dei suoi primi esperimenti di machine learning, oggi elabora oltre mille miliardi di parole al mese per miliardi di utenti. Portare la stessa magia nel parlato, in tempo reale e con voce naturale, significa rendere possibili scenari che fino a poco fa erano complicati o impacciati. Pensa a un viaggio in un paese di cui non conosci la lingua, a una lezione seguita in un’altra lingua, a una trattativa commerciale tra persone che non condividono un idioma comune, o all’assistenza clienti internazionale.

Un esempio concreto arriva dai test condotti da Grab, il colosso del trasporto e della consegna nel Sud-est asiatico, che sta provando il modello per far comunicare in tempo quasi reale autisti e passeggeri al momento del ritiro. Parliamo di utenti che effettuano oltre 10 milioni di chiamate vocali al mese, un volume che dà l’idea di quanto una traduzione fluida possa incidere su servizi reali. La logica agentica e in tempo reale di Live Translate ricorda da vicino la direzione presa da Google con strumenti come l’agente personale Gemini Spark, pensati per agire in autonomia accanto alle persone.

C’è poi una dimensione di accessibilità e inclusione che vale la pena sottolineare. Una traduzione vocale fluida e immediata non serve soltanto a chi viaggia, ma può aiutare chi vive o lavora in un paese di cui non padroneggia la lingua, gli studenti internazionali, i professionisti sanitari che assistono pazienti stranieri o chi gestisce servizi pubblici rivolti a una popolazione multilingue. Per un paese come l’Italia, attraversato dal turismo e da scambi commerciali con l’estero, il potenziale è evidente, e la presenza della funzione direttamente in Google Meet e nell’app Translate la rende accessibile senza dover acquistare hardware dedicato o software specialistico. Tradurre non sarà mai del tutto neutro, perché ogni lingua porta con sé sfumature culturali difficili da rendere, ma avere uno strumento che abbatte la prima barriera, quella della comprensione di base, cambia molte situazioni quotidiane.

C’è infine un aspetto legato alla responsabilità che merita attenzione. Tutto l’audio generato dai modelli di Google viene marcato con SynthID, un watermark impercettibile inserito direttamente nell’output sonoro per mantenere riconoscibile il contenuto creato dall’AI. In un’epoca in cui le voci sintetiche possono essere usate per disinformazione e truffe, la possibilità di distinguere ciò che è generato artificialmente diventa una garanzia importante, non un dettaglio tecnico. Questa traccia nascosta non cambia l’esperienza di chi ascolta, ma offre uno strumento in più per contrastare gli abusi.

Resta qualche limite di cui tenere conto. Per ora la disponibilità è scaglionata: anteprima pubblica per gli sviluppatori, anteprima privata su Meet, distribuzione progressiva sull’app Translate, con un rollout più ampio previsto nel corso dell’anno. La qualità, inoltre, dipende sempre dal contesto, dalla chiarezza dell’audio e dalle lingue coinvolte. Ma la direzione è inequivocabile, e il fatto che una funzione del genere arrivi direttamente nelle app che già usi la rende molto più di una semplice dimostrazione tecnologica.

Conviene infine inquadrare l’annuncio nel contesto competitivo. La traduzione simultanea in tempo reale è da anni uno degli obiettivi più ambiti del settore, perché unisce due capacità difficili da combinare: comprendere il linguaggio naturale e generare voce credibile con bassa latenza. Quasi tutti i grandi attori dell’AI stanno lavorando in questa direzione, e il fatto che Google porti la funzione direttamente in prodotti di massa come Translate e Meet alza l’asticella per tutti. Per te che leggi, la conseguenza pratica è che strumenti di interpretariato un tempo costosi o riservati a contesti professionali stanno diventando accessibili a chiunque abbia uno smartphone. Vale la pena testarli con spirito critico, valutando di volta in volta se la qualità della traduzione è adeguata alla posta in gioco, perché in situazioni delicate, dalla medicina al diritto, l’interprete umano resta insostituibile.

Conclusioni

Con Gemini 3.5 Live Translate la traduzione simultanea smette di essere una promessa da fiera tecnologica e diventa una funzione concreta, disponibile sul telefono, nelle riunioni e negli strumenti per sviluppatori. Il valore non sta solo nel numero di lingue, per quanto impressionante, ma nella naturalezza con cui il modello mantiene voce, ritmo e tono, avvicinando l’esperienza a quella di un vero interprete. Se viaggi, lavori con persone di altri paesi o costruisci prodotti digitali, vale la pena tenere d’occhio questa tecnologia e provarla appena arriva sui tuoi dispositivi. Puoi leggere tutti i dettagli nell’annuncio ufficiale di Google e continuare a seguirci per scoprire come l’intelligenza artificiale sta trasformando il modo in cui comunichiamo.

Suggerimento di lettura

Agenti AI autonomi: cosa sono, come funzionano e perché cambieranno il modo di lavorare

Gli agenti AI autonomi sono sistemi che pianificano, eseguono azioni e usano strumenti per completare task complessi senza supervisione continua. Scopri come funzionano e quali applicazioni stanno trasformando il lavoro.