Tecnología

Una IA desarrollada por Google podrá mimetizar la voz humana

Escrito por Marcos Merino

Wavenet, una creación del equipo Google DeepMind, promete hacernos imposible reconocer si estamos hablando con un computador o con otra persona.

Todos nos hemos cruzado en alguna ocasión con algún vídeo narrado mediante el uso de algún conversor de texto a voz (como el popular Loquendo), y sabemos por tanto cuán sencillo resulta para cualquiera de nosotros diferenciar si la voz que estamos oyendo es la voz de una persona real o el resultado de un sintetizador de voz. Actualmente, dos son los métodos de referencia a la hora de realizar esta labor de síntesis:

  • Síntesis concatenativa: Recurre a una gran colección de palabras y frases grabadas por una única persona, lo que dificulta sobremanera adaptar la entonación.
  • Síntesis de formantes: Basada en la formación las palabras y entonaciones electrónicamente, provocando así que la voz suene 100% robótica.

En ambos casos, el resultado se queda a kilómetros de lo que podríamos considerar una imitación realista de la voz humana. Pero, al igual que teóricamente puede ocurrir con la inteligencia, también podría llegar el momento en que un bot llegue a convencernos de que estamos oyendo la voz de una persona real.

Al menos, ése es el objetivo que se ha marcado el equipo de Google DeepMind con la creación de la inteligencia artificial WaveNet. Y no cabe duda de que si ahora mismo hay alguien que pueda lograrlo, son ellos: recordemos que este equipo fue responsable también de la creación de AlphaGo, la IA que derrotó a uno de los ‘maestros’ del complejo juego oriental Go.

La principal diferencia entre WaveNet y los actuales sintetizadores radica en el hecho de basarse en la producción de ondas de sonido, y no en el propio lenguaje: recurriendo a una ‘red neural’, WaveNet trata de imitar el funcionamiento del cerebro humano, analizando las ondas de sonido y tratando de modelar posibles patrones. El truco reside en la captura de aproximadamente 16.000 muestras de audio por segundo, lo que genera enormes volúmenes de datos.

Vía | Bloomberg

Sobre el autor de este artículo

Marcos Merino

Marcos Merino es redactor freelance y consultor de marketing 2.0. Autodidacta, con experiencia en medios (prensa escrita y radio), y responsable de comunicación online en organizaciones sin ánimo de lucro.