Cómo funciona la IA que traduce a otros idiomas de forma automática
Las redes sociales se han hecho eco de vídeos de personalidades públicas dobladas a multitud de idiomas como inglés, portugués o chino
¿Y si Belén Esteban, El Fary o Feijóo dominasen el inglés? Con esta IA ya es posible
He estado probando yo mismo la IA esa que dobla voces a otros idiomas y, efectivamente, vivimos en el 2090. pic.twitter.com/67mqZJ6YGc
— Kim Jong-un (@norcoreano) September 13, 2023
El rápido crecimiento y desarrollo de la Inteligencia Artificial (IA), con cada vez más funciones y herramientas a disposición de los usuarios, no deja de sorprendernos. En cuestión de meses, la llegada de Chat GPT ha revolucionado las posibilidades de la IA para que cualquier internauta pueda hacer uso de interpretaciones de textos, generación de imágenes a partir de descripciones o textos complejos que parten de simples premisas en segundos.
Por ello, no es casualidad que los usuarios de redes sociales hayan compartido su fascinación por una de las últimas herramientas disponibles: traducir conversaciones o discursos a cualquier otro idioma manteniendo la voz del emisor del mensaje en cuestión. Perfiles conocidos y con miles de seguidores comenzaron a hacerse eco desde este jueves de la herramienta, desatando una fiebre en redes sociales como X (antiguo Twitter), Instagram, Tiktok o Youtube.
Los sujetos de estas traducciones son variados, desde figuras mediáticas como Belén Esteban a políticos como Alberto Nuñez Feijóo y personajes a los que jamás nos hubiéramos imaginado expresándose en un inglés fluido, como El Fary. Pero este fenómeno va más allá. Cabe destacar como muchos vídeos virales que ya forman parte del imaginario colectivo de toda una generación, como Ramón de Pitis o los jóvenes del «pim, pam, toma lacasitos» que inmortalizó viajeros Cuatro durante un control del alcoholemia, se pueden disfrutar ya en inglés, portugués, chino o cualquier otro idioma.
— Jesus Cao (@jesuscao) September 13, 2023
La fiebre por estas traducciones simpáticas es posible gracias a aplicaciones como Rask.ia, cuyo acceso gratuito está limitado debido a la alta demanda de uso por parte de los usuarios, algo similar a lo ocurrido cuando se popularizó la versión 3.5 de ChatGPT. Una herramienta que, si bien abre la puerta a facilitar la comprensión entre personas en leguas que desconocen, implica una dificultad añadida a la capacidad de diferenciar los contenidos verídicos de las denominadas 'fake news', cuyo objetivo no es otro que el de desinformar.
La tecnología que lo hace posible
La tecnología que hace posible estas traducciones no es nueva per se. Tal y como explica el profesor de Inteligencia Artificial en la Universidad Internacional de la Rioja, Juan Ignacio Rouyet, la herramienta lleva meses en desarrollo y perfeccionamiento. «Antes necesitabas una hora de discurso para adquirir el tono de la persona y ahora, por ejemplo, se puede hacer en cuestión de segundos», indica el autor del libro 'Estupidez Artificial'.
El proceso consiste en el reconocimiento del texto contenido en el audio o vídeo, para posteriormente consolidarlo con un clonado de la voz original y, en tercer lugar, sincronizar el sonido con los labios del ponente. En el caso de las traducciones, se requeriría de un cuarto paso para convertir el texto al idioma deseado.
Todavía no ha llegado al punto de refinamiento necesario para, por ejemplo, permitir una traducción a tiempo real de discursos en múltiples idiomas en el Congreso de los Diputados, que tendrán lugar a partir del próximo martes. Pero el perfeccionamiento de este tipo de funcionalidades es solo cuestión de tiempo, capacidad de computación y entrenamiento de la IA.
Rouyet señala como cada vez hay más idiomas disponibles, es más rápido y más indistinguible de los vídeos o audios originales. «El problema es el tiempo real, ya que hay un retardo dependiendo del tamaño del archivo, pero eso no implica que no sea posible en un futuro», añade el profesor.
¿Cómo diferenciar la realidad de la ficción?
Más allá del uso y las posibilidades de esta tecnología, la otra cara muestra una realidad incómoda. «Desafortunadamente las técnicas de clonado de voz y sincronización de los diferentes elementos (el video, el nuevo texto, y el movimiento de los labios) cada vez son más fáciles de crear y sus resultados cada vez son mejores«, señala Josep Curto, profesor de IA en la Universidad Oberta de Cataluña (UOC).
«Vista la velocidad de evolución, nos vamos a encontrar con una gran cantidad de videos generados que serán indistinguibles de los mensajes originales, a menos que haya una voluntad u obligación por parte de los creadores de contenidos«, añade el experto.
MÁS INFORMACIÓN
- Los padres alemanes se hartan de los profesores que incluyen en el currículum la asistencia a protestas climáticas
- Ni seguro para perros, ni cursillo para los dueños: el Gobierno reconoce que no puede aplicar aún toda la ley de Bienestar Animal
- La Aemet advierte de un sistema atlántico que descargará chubascos y tormentas en 13 comunidades
En el caso de Rouyet, el profesor hace referencia a una frase de Alan Turing, padre de la informática, que podría aplicarse para este caso: «La única forma de vencer a una máquina es crear otra máquina». Ante la imposibilidad de verificar humanamente, será necesaria una herramienta adicional para garantizar la veracidad de la información, «de la misma forma que ahora pasamos un antivirus a un correo», añade Rouyet.
Esta funcionalidad es sólo para suscriptores
Suscribete
Esta funcionalidad es sólo para suscriptores
Suscribete