Innovación

Un algoritmo extraerá sonido a partir de fotogramas de vídeos… mudos

sound
Escrito por Marcos Merino

Sus creadores lo llaman “el micrófono visual”, y permite conocer conversaciones a partir de la vibración de objetos como las bolsas de patatas fritas.

“Somos científicos y a veces vemos películas como las de James Bond y pensamos ‘Esto es teatro de Hollywood. Es imposible hacer eso. Es ridículo’. Y de repente, ahí está: podemos ver cómo un asesino admite su culpabilidad porque hay material de vigilancia de las vibraciones en su bolsa de patatas fritas“. Estas palabras del profesor de Berkeley Alexei Efros son una magnífica introducción al invento que abordamos en este artículo.

Porque justamente eso es lo que han logrado investigadores del MIT, Microsoft y Adobe: un algoritmo que puede reconstruir una señal de audio mediante el análisis de las vibraciones de los objetos visibles en un archivo de vídeo. El ejemplo antes mencionado de la bolsa de patatas fritas fue el usado para testear dicho algoritmo: las imágenes se tomaron a 15 metros de distancia a través de un cristal con aislamiento sonoro. En otros experimentos, se extrajeron señales de audio útiles a partir de vídeos que recogían el movimiento de un papel de aluminio, de la superficie de un vaso de agua, e incluso de las hojas de una planta sembrada en maceta.

En palabras del investigador del MIT Abe Davis y autor principal de este estudio (“The Visual Microphone: Passive Recovery of Sound from Video”, aquí en PDF) que será presentado la semana que viene en Vancouver en el marco de la conferencia sobre computación gráfica SIGGRAPH 2014, “cuando el sonido choca contra un objeto, hace que éste vibre. El movimiento de esta vibración crea una sutil señal visual, generalmente invisible a simple vista”.

La reconstrucción del audio a partir de un vídeo requiere que la frecuencia de las muestras de vídeo (el número de frames por segundo) sea superior a la frecuencia de la señal de audio. En algunos de sus experimentos, los investigadores hicieron uso de una cámara de alta definición que captaba 2000-6000 frames por segundo (mucho más que los 60 de la cámara de algunos smartphones, pero muy por debajo de las mejores cámaras comerciales de alta definición, que se mueven en torno a los 100.000 fps). Sin embargo, incluso usando un vídeo tomado por un smartphone, es aún posible extraer información de las imágenes, como el número de hablantes de una habitación, o su género.

Imagen | r2hox

Sobre el autor de este artículo

Marcos Merino

Marcos Merino es redactor freelance y consultor de marketing 2.0. Autodidacta, con experiencia en medios (prensa escrita y radio), y responsable de comunicación online en organizaciones sin ánimo de lucro.