Innovación

El MIT desarrolla un sistema capaz de distinguir los fonemas de las palabras

pebble-time-voz

Investigadores del MIT han diseñado un nuevo sistema de aprendizaje automático capaz de aprender a distinguir las unidades fonéticas de nivel inferior, como las sílabas o los propios fonemas.

Cada lengua tiene una serie de fonemas distintos que son los que componen las palabras habladas y, por ende, la unidad básica que nos permite comunicarnos con nuestros semejantes. Sin embargo, hasta el momento los sistemas informáticos no han sido capaces de registrar y procesar estos fonemas de forma precisa y sin necesidad de ser programados o entrenados previamente para ello.

Es por ello que cobra tanta importancia el reciente anuncio del MIT (Massachusetts Institute of Technology), cuyos investigadores han diseñado un nuevo sistema de aprendizaje automático que es capaz de aprender a distinguir las palabras habladas (como sus predecesores) pero también de diseminar las unidades fonéticas de nivel inferior, como las sílabas o los propios fonemas.

Este avance permitirá desarrollar sistemas de procesamiento de voz para aquellos idiomas menos habituales en el planeta, que no cuentan con tantas décadas de investigaciones lingüísticas sobre su sistema fonético. Asimismo, ayudará a limar las diferencias entre las pronunciaciones de diferentes oradores en un mismo idioma.

A años luz de Siri o Google Now

El nuevo sistema ideado por el MIT dará la posibilidad de desarrollar algoritmos de reconocimiento de voz mucho más avanzados que los que actualmente disfrutamos en nuestros smartphones y tablets.

Apple confirma la adquisición de la startup de reconocimiento de voz Novauris

Y es que, mientras que la tecnología de Siri o Google Now actualmente se basa en una serie de bases de datos sobre las distintas pronunciaciones y muestras de voz que se pueden producir, la nueva tecnología permitirá que la propia máquina aprenda estos fonemas de forma automática, sin necesidad de ninguna preparación previa.

¿Cómo consigue identificar los fonemas?

Dado que el sistema del MIT no requiere insertar previamente los datos sobre los fonemas y palabras a reconocer, es necesario que la máquina sea capaz de realizar algunas suposiciones acerca de la estructura de los datos con el fin de sacar conclusiones coherentes. Una es que la frecuencia con la que las palabras se producen en el habla sigue una distribución estándar conocida como la ley de potencia, que significa que un pequeño número de palabras se producirá con mucha frecuencia, pero que la mayoría de las palabras ocurren con poca frecuencia (el fenómeno estadístico de la “larga cola”). Los parámetros exactos de que la distribución -su valor máximo y la velocidad a la que colea- se desconoce, pero se asume su forma general.

Googlear, guasap, tuit y otras palabras que nos enseñó la tecnología

La otra clave para el rendimiento del sistema es lo que se conoce como el modelo de “canales ruidosos” de la variabilidad fonética. Por ejemplo, el inglés puede tener menos de 50 fonemas, pero cualquier fonema puede corresponder a una amplia gama de sonidos, incluso en el habla de una sola persona. Para modelar este fenómeno, los investigadores trataron la señal de audio como si se tratara de una secuencia de fonemas perfectamente regulares que hubieran sido enviados a través de un canal ruidoso, sujeto a alguna influencia corrupta. Teniendo en cuenta esto, el objetivo del sistema de la máquina inteligente es aprender las correlaciones estadísticas entre el sonido “recibido” – el que puede haber sido dañado por el ruido – y el fonema asociado.

Sobre el autor de este artículo

Alberto Iglesias Fraga

Periodista especializado en tecnología e innovación que ha dejado su impronta en medios como TICbeat, El Mundo, ComputerWorld, CIO España, Kelisto, Todrone, Movilonia, iPhonizate o el blog Think Big de Telefónica, entre otros. También ha sido consultor de comunicación en Indie PR. Ganador del XVI Premio Accenture de Periodismo y Finalista en los European Digital Mindset Awards 2016.