10/06/2026 18:45 - Tecnologia
Interfaz de smartphone mostrando traducción de voz en tiempo real con ondas sonoras que conectan a personas hablando diferentes idiomas sobre un globo terráqueo holográfico con símbolos de idiomas, estética tecnológica moderna
Google acaba de dar un paso gigantesco en la eliminación de las barreras lingüísticas con el lanzamiento de Gemini 3.5 Live Translate, un modelo de inteligencia artificial capaz de traducir voz a voz en tiempo casi real, manteniéndose apenas unos segundos detrás del hablante durante las conversaciones.
La innovación más destacada es que el modelo ya no espera a que el usuario termine de hablar para iniciar la traducción, como hacían los sistemas anteriores. En su lugar, procesa el habla de forma continua y prácticamente instantánea, comprendiendo el contexto en tiempo real.
Una de las características más impresionantes de Gemini 3.5 Live Translate es su capacidad para preservar la entonación, el ritmo y el tono emocional del hablante original. Esto significa que si alguien habla con entusiasmo o sarcasmo, la traducción mantendrá esas cualidades vocales, haciendo la comunicación mucho más natural y humana.
El modelo detecta automáticamente el idioma del hablante sin necesidad de configuración manual, permitiendo conversaciones fluidas en más de 2.000 combinaciones de idiomas en una misma reunión o llamada.
El sistema procesa el habla a medida que se transmite, sin necesidad de esperar a que termine la frase. Su robustez frente al ruido le permite funcionar en entornos ruidosos e impredecibles, como calles concurridas o espacios públicos.
Toda la salida de audio generada lleva una marca de agua SynthID, una tecnología invisible que ayuda a prevenir el uso indebido para desinformación, permitiendo identificar cuándo el audio ha sido generado por IA.
Grab, la empresa de movilidad del sudeste asiático, ya está probando la tecnología para facilitar la comunicación entre conductores y pasajeros de diferentes idiomas. La compañía reporta más de 10 millones de llamadas de voz mensuales a través de su plataforma.
Philipp Kandal, Director de Producto de Grab, destacó que valoran especialmente la capacidad del modelo para detectar automáticamente múltiples idiomas y traducir con alta precisión y baja latencia.
El modelo está disponible desde hoy en los productos de Google:
Plataformas como Agora, Fishjam, LiveKit, Pipecat y Vision Agents ya están integrando la tecnología para crear nuevas aplicaciones de traducción de voz.
Para tener en cuenta: Google Meet con Gemini 3.5 Live Translate soporta más de 70 idiomas en comparación con el límite anterior de solo cinco idiomas, expandiendo dramáticamente las posibilidades de comunicación global en videoconferencias.
Alfredo S. Quiroga
Conspiraciones