Buenas vibraciones: reconstrucción de sonidos a partir de información visual
Parece algo propio de una película de ciencia ficción, o al menos de alguna de la saga de James Bond, pero, al parecer, investigadores del MIT, Microsoft y Adobe han desarrollado un algoritmo capaz de reconstruir una señal sonora a partir del análisis de las diminutas vibraciones de los objetos grabados en vídeo. En uno de sus experimentos, como se relata en el vídeo, llegaron incluso a recuperar una conversación humana inteligible a partir de las vibraciones de una bolsa de patatas fritas mediante una grabación obtenida desde 5 metros de distancia y con la cámara situada tras una ventana insonorizante.
Transcripción
Cuando un sonido se topa con un objeto, hace que este vibre. El movimiento de esta vibración crea un sutil señal visual, normalmente invisible para el ojo humano.
En nuestro trabajo, demostramos cómo, utilizando solo un vídeo del objeto y un algoritmo de procesamiento podemos extraer esas minúsculas vibraciones y recuperar parcialmente los sonidos originales, lo que convierte los objetos cotidianos en micrófonos visuales.
En el vídeo de alta velocidad sin sonido que se muestra aquí a la izquierda, vemos las hojas de una planta en una maceta (que se puede ver a la derecha). El vídeo se grabó mientras en un altavoz próximo sonaban las notas de «Mary Had a Little Lamb». Aunque estamos viendo el vídeo a cámara lenta, las vibraciones producidas por la música son tan sutiles que mueven las hojas de la planta menos de una centésima de píxel, por lo que a simple vista parece que está inmóvil. Pero combinando y filtrando el levísimo movimiento que tiene lugar en la imagen, somos capaces de recuperar este sonido.
En nuestro siguiente experimento, recuperamos habla humana a partir de un vídeo de alta velocidad de una bolsa de patatas tirada en el suelo. Pero, para complicar un poco las cosas, esta vez colocamos la cámara fuera, tras una ventana insonorizante.
Esto es lo que un teléfono móvil pudo grabar desde el interior, junto a la bolsa de patatas. Y esto es lo que pudimos recuperar a partir del vídeo de alta velocidad grabado desde el exterior, tras el vidrio aislante.
En este siguiente experimento, recuperamos música a partir de un vídeo de alta velocidad de unos auriculares conectados a un ordenador portátil. A continuación, tomamos el sonido recuperado y utilizamos software de reconocimiento de audio para identificar automáticamente la canción que estaba sonando.
La mayoría de las frecuencias audibles son mucho mayores que la velocidad de grabación estándar, por lo que todos los resultados que hemos visto hasta ahora se obtuvieron a partir de vídeo grabado con una cámara de alta velocidad, capaz de obtener miles de imágenes por segundo.
Pero en este siguiente experimento demostramos que, utilizando las capacidades del obturador de persiana que incorporan la mayoría de las cámaras normales, a veces se puede recuperar sonido cuyas frecuencias son varias veces más altas que la velocidad de grabación del vídeo, lo que permite obtener audio a partir de vídeo grabado con cámaras normales.
Aquí vemos un vídeo de una bolsa de caramelos grabado a 60 fps con una cámara DSLR normal, mientras la música de «Mary Had a Little Lamb» sonaba a través de un altavoz cercano. Aplicando una variación de nuestra técnica sobre la grabación original, logramos obtener este audio, que incluye frecuencias más de cinco veces mayores que la velocidad de grabación de nuestra cámara.
Fuente: Extracting audio from visual information (MIT News, 4 de agosto de 2014)
Más información: http://people.csail.mit.edu/mrub/VisualMic/
Twittear