TOP 5

Google lanza Gemini 3.5 Live Translate: traducción de voz en tiempo real que rompe barreras idiomáticas

10/06/2026 18:45 - Tecnologia

inteligencia artificial Google Gemini Google Translate traducción en tiempo real Google Meet

Interfaz de smartphone mostrando traducción de voz en tiempo real con ondas sonoras que conectan a personas hablando diferentes idiomas sobre un globo terráqueo holográfico con símbolos de idiomas, estética tecnológica moderna

Google presentó Gemini 3.5 Live Translate, una revolucionaria inteligencia artificial que traduce voz a voz en tiempo casi real en más de 70 idiomas, preservando el tono, ritmo y emoción del hablante. La herramienta se integra en Google Meet, Google Translate y ofrece API para desarrolladores.

Una revolución en comunicación multilingüe

Google acaba de dar un paso gigantesco en la eliminación de las barreras lingüísticas con el lanzamiento de Gemini 3.5 Live Translate, un modelo de inteligencia artificial capaz de traducir voz a voz en tiempo casi real, manteniéndose apenas unos segundos detrás del hablante durante las conversaciones.

La innovación más destacada es que el modelo ya no espera a que el usuario termine de hablar para iniciar la traducción, como hacían los sistemas anteriores. En su lugar, procesa el habla de forma continua y prácticamente instantánea, comprendiendo el contexto en tiempo real.

Características principales

+70 idiomas soportados
Detección automática del idioma
Preservación del tono y emociones
Funciona en entornos ruidosos
Marca de agua SynthID anti-desinformación

Integraciones disponibles

Google Meet: Vista previa privada para empresas
Google Translate: Disponible en Android e iOS
API Gemini Live: Para desarrolladores
Google AI Studio: Vista previa pública

La voz traducida suena como tú

Una de las características más impresionantes de Gemini 3.5 Live Translate es su capacidad para preservar la entonación, el ritmo y el tono emocional del hablante original. Esto significa que si alguien habla con entusiasmo o sarcasmo, la traducción mantendrá esas cualidades vocales, haciendo la comunicación mucho más natural y humana.

El modelo detecta automáticamente el idioma del hablante sin necesidad de configuración manual, permitiendo conversaciones fluidas en más de 2.000 combinaciones de idiomas en una misma reunión o llamada.

¿Cómo funciona técnicamente?

El sistema procesa el habla a medida que se transmite, sin necesidad de esperar a que termine la frase. Su robustez frente al ruido le permite funcionar en entornos ruidosos e impredecibles, como calles concurridas o espacios públicos.

Toda la salida de audio generada lleva una marca de agua SynthID, una tecnología invisible que ayuda a prevenir el uso indebido para desinformación, permitiendo identificar cuándo el audio ha sido generado por IA.

Casos de uso reales

Grab, la empresa de movilidad del sudeste asiático, ya está probando la tecnología para facilitar la comunicación entre conductores y pasajeros de diferentes idiomas. La compañía reporta más de 10 millones de llamadas de voz mensuales a través de su plataforma.

Philipp Kandal, Director de Producto de Grab, destacó que valoran especialmente la capacidad del modelo para detectar automáticamente múltiples idiomas y traducir con alta precisión y baja latencia.

Disponibilidad y desarrolladores

El modelo está disponible desde hoy en los productos de Google:

Google Translate: Aplicación móvil en Android e iOS
Google Meet: Vista previa privada para empresas desde este mes
API pública: Para desarrolladores a través de Gemini Live y Google AI Studio

Plataformas como Agora, Fishjam, LiveKit, Pipecat y Vision Agents ya están integrando la tecnología para crear nuevas aplicaciones de traducción de voz.

Para tener en cuenta: Google Meet con Gemini 3.5 Live Translate soporta más de 70 idiomas en comparación con el límite anterior de solo cinco idiomas, expandiendo dramáticamente las posibilidades de comunicación global en videoconferencias.