Innovación

Google entrena un sistema para que describa imágenes con palabras

Google entrena un sistema para que describa imágenes con palabras
Escrito por Redacción TICbeat

Los avances pueden contribuir a la mejora del sistema de búsqueda de Google Imágenes, así como a ayudar a personas con dificultades visuales y con mala conexión a Internet.

“Puede que una imagen valga más que mil palabras, pero hay ocasiones en las que las palabras son mucho más útiles”. Así lo creen, al menos, en el equipo de Google Research, que continúa avanzando en la investigación y mejora de su sistema de reconocimiento de imágenes. Su último hito: un software capaz de aprender a describir qué está pasando en una foto con nuestro mismo lenguaje.

Es un paso que va más allá de lo conseguido hasta ahora por Google y otras compañías como Flickr, que han estado trabajando en sistemas que permitan la detección y etiquetado automático de objetos en las imágenes. Investigadores de Google ganaron este año el reconocimiento ImageNet Large-Scale Visual Recognition Challenge, y avanzaron en la identificación precisa de múltiples objetos en una misma imagen.

Ahora, además, han conseguido describir las imágenes con mayor exactitud, señalando las interrelaciones que existen entre los objetos de una misma imagen. Por ejemplo, las acciones. Algunos ejemplos reales de descripciones construidas con este sistema son “Un grupo de gente comprando en un mercado al aire libre” o  “Dos pizzas sobre un horno”. Lo han hecho mediante un sistema informático que es capaz de contar en descripciones en lenguaje natural qué está pasando en una fotografía.

Como explican los investigadores Oriol Vinyals, Alexander Toshev, Samy Bengio y Dumitru Erhan en una entrada en el blog oficial de Google Research, la inspiración les vino de un sistema de traducción entre idiomas ya existente. Éste traduce una frase en francés, por ejemplo, convirtiéndola en una representación vectorial que una RNN (algo así como red neuronal recurrente) es capaz, después, de interpretar en alemán.

Resumiendo mucho, algo así es lo que el equipo de Google Research ha aprendido a hacer con las imágenes: traducirlas mediante una CNN (red neuronal convolucional) entrenada para clasificar imágenes, que transmite información a una RNN capaz de traducir esos datos en una frase, que será la descripción de la fotografía.

Los resultados conseguidos hasta la fecha con estos experimentos son, en opinión de sus responsables, “robustos”. Las descripciones de las fotografías generadas a partir de este sistema son “bastante razonables”. Un panel publicado por Google muestra distintos resultados, clasificados por humanos según su grado de precisión.

Algunos pies de foto, como “una nevera llena de comida y bebida”, no se corresponden con la imagen a la que hacen referencia, de una señal de tráfico cubierta de pegatinas. Pero otros muchos, incluso los que no aciertan por completo y ven dos perros en vez de tres o un gato tumbado en vez de sentado, muestran una sorprendente eficacia.

Un sistema como éste, señalan sus responsables, puede ayudar a que personas con dificultades de visión entiendan las fotografías que se muestran en su ordenador o dispositivo móvil, a que los habitantes de aquellos lugares del mundo con mala conexión puedan saber qué hay en una foto si ésta no se carga y, por supuesto, a que sea más fácil para todo el mundo buscar y encontrar en Google Imágenes.

Sobre el autor de este artículo

Redacción TICbeat

Actualidad y análisis en tecnología, tendencias, aplicaciones web, seguridad, educación, social media y las TIC en la empresa.