Innovación

Un Test de Turing visual

12528646393_7c20e6362b_b
Escrito por Marcos Merino

Los actuales retos en reconocimiento visual no sólo están más que superados, sino que son poco útiles. ¿Y si las máquinas interpretaran qué ocurre en las fotos?

Los ordenadores mejoran año a año su rendimiento en lo referido a tareas de ‘inteligencia artificial’, como las relacionadas con el reconocimiento facial o la detección de determinados objetos en imágenes. Gran parte del mérito se debe a las nuevas técnicas de aprendizaje automático (por ejemplo, las denominadas ‘de aprendizaje profundo’) y a los bancos de fotografías etiquetadas por crowdsourcing (como ‘LabelMe’ del MIT). Un grupo de investigadores especialistas en el campo de la visión sostiene ahora que limitarse a detectar los objetos de una fotografía no sólo es demasiado fácil, sino que no resulta muy útil: es preferible intentar que las máquinas sean capaces de “entender” lo que está “sucediendo” en la imagen.

Así, con la ayuda de DARPA, el profesor de matemáticas aplicadas de la Universidad de Brown, Stuart Geman, ha desarrollado junto a tres académicos de la Universidad Johns Hopkins (Donald Geman, Beil Hallonquist y Laurent Younes) un marco teórico para la elaboración de un examen estandarizado que sea capaz de evaluar la precisión de una nueva generación de software de reconocimiento visual. La investigación ha sido publicada esta semana en la publicación Proceedings of the National Academy of Sciences.

El método propuesto requiere de diseñadores de tests que elaboren listas con posibles atributos atribuibles a una imagen. Las fotografías son valoradas primero por humanos en base a estos criterios, y a continuación se someterían al software de reconocimiento visual para determinar si éste es capaz de detectar lo que los humanos han visto. Inicialmente, los atributos a valorar serían rudimentarios (“hay gente en la calle”, por ejemplo), pero irían ganando complejidad a medida que el software pudiera ser más sofisticado, hasta llegar al extremo de interrogarse por la interacción entre las personas que aparecen en la fotografía (“hay varias personas hablando entre sí”, etc). Finalmente, los diseñadores de test podrían terminar interrogando al software en busca de los conocimientos ‘de sentido común’ que siempre han sido el objetivo de los investigadores de inteligencia artificial (como, por ejemplo, “¿qué pasará con el nombre frente al edificio del que está a punto de caer ese piano?”).

Esta propuesta llega en el momento propicio: sólo dos meses después de que la comunidad científica vinculada al estudio de la inteligencia artificial tratase de elaborar un sustituto al popular (pero insuficiente) Test de Turing, una tarea que continuará este verano en Buenos Aires.

Imagen | Talking on the edge in Zurich via photopin (license)

Sobre el autor de este artículo

Marcos Merino

Marcos Merino es redactor freelance y consultor de marketing 2.0. Autodidacta, con experiencia en medios (prensa escrita y radio), y responsable de comunicación online en organizaciones sin ánimo de lucro.