Innovación

La inteligencia artificial ya es (casi) infalible leyendo los labios

girl-1245713_1280
Escrito por Marcos Merino

LipNet ofrece una eficacia de más del 93%, frente al 52% de las personas sordas, abriendo las puertas a numerosas aplicaciones prácticas.

Aunque la lectura de labios (saber qué está diciendo una persona a través del movimiento de sus labios y su lengua) es una técnica usada fundamentalmente por parte de las personas sordas, aquellas que disfrutan de una audición normal habitualmente recurren también a ella de manera inconsciente para complementar la información recibida de manera auditiva. Eso no significa, sin embargo, que los seres humanos (ni siquiera los afectados por deficiencias auditivas) seamos especialmente eficientes leyendo labios: diversos experimentos con personas sordas han demostrado que la precisión habitual de este colectivo, que en principio estaía especialmente capacitado para la tarea que nos ocupa, se sitúa en torno al 52%.

Por ello, muchos han puesto su esperanza en la tecnología con el fin de automatizar la lectura de labios. Esto tendría, claro un enorme potencial práctico, pues permitiría diseñar audífonos mejorados, o crear sistemas de reconocimiento de voz o de dictado silencioso en entornos ruidosos y/o espacios públicos. Sin embargo, hasta ahora todo los proyectos dirigidos a lograr dicha automatización se centraban únicamente en el reconocimiento de palabras y no en la predicción a nivel de frase. Pero el hecho de que los humanos seamos más eficientes ‘leyendo’ palabras largas que monosilábicas sugiere que captar el contexto temporal de los movimientos bucolabiales es importante para mejorar el reconocimiento de palabras.

Por ello, un grupo de investigadores del Departamento de Ciencia Computacional la Universidad de Oxford liderados por Yannis M. Assael ha desarrollado LipNet, un modelo de lectura de labios automatizado, basado en el aprendizaje profundo y en el uso de redes neuronales espacio-temporales conexionistas (sistemas de inteligencia artificial capaces de resolver problemas en tiempo real en base a razonamientos donde estén disponibles el tiempo y el espacio). Gracias a LipNet, los investigadores han logrado una eficacia del 93,4% en el proceso de ‘lectura de labios’.

Vía | OpenReview

Sobre el autor de este artículo

Marcos Merino

Marcos Merino es redactor freelance y consultor de marketing 2.0. Autodidacta, con experiencia en medios (prensa escrita y radio), y responsable de comunicación online en organizaciones sin ánimo de lucro.