Tecnología

Sirius, un asistente inteligente de código abierto que combina el reconocimiento de voz y de imágenes

Sirius
Escrito por Mihaela Marín

El programa, realizado por un grupo de investigadores de la Universidad de Michigan en colaboración con Google, combina el reconocimiento de voz y de imágenes para ejecutar consultas en forma de preguntas y respuestas.

Los progresos en investigaciones de reconocimiento de voz e imagen son los que marcarán la siguiente etapa de evolución tecnológica. Hasta ahora se ha visto un leve desarrollo en el campo por parte de las grandes compañías.

Cortana de Microsoft, Google Now de Google o Siri de Apple son las versiones incipientes de asistentes inteligentes a través de los cuales cada gigante intenta ganar una posición en un mercado que tiene muchas oportunidades de crecer a medida que la demanda de dispositivos conectados se mueve a gran escala y con ello crece la necesidad de encontrar una solución a los límites computacionales de las arquitecturas informáticas actuales.

A todas estas propuestas de productos comerciales se ha sumado Sirius, un programa de código abierto financiado por Google y desarrollado por el grupo de investigadores de Clarity Lab de la Universidad de Michigan.

Según sus autores, Sirius ha sido creado para llevar a otro nivel el desarrollo de los asistentes virtuales. En su caso integra una tecnología que le permite ser controlado totalmente, tanto a nivel de voz como de visión. Para ello combina el reconocimiento de voz y de imágenes, así como un sistema procesamiento del lenguaje natural y otro de preguntas y respuestas que se ejecuta en la nube.

Lo que hemos hecho con Sirius ha sido empujar los límites del asistente personal inteligente. No solo puedes interactuar con tu voz, pero también puedes hacer preguntas sobre lo que estás viendo, que es una nueva forma de interactuar con este tipo de dispositivo”, explica Johann Hauswald, estudiante de doctorado de Clarity Lab.

En el momento de su lanzamiento los usuarios podrán realizar consultas haciendo preguntas al dispositivo o usando una combinación de palabras e imágenes, como por ejemplo una foto de un restaurante seguido por la pregunta: “¿Cuándo cierra este local?”, algo que en la opinión de los investigadores de Sirius no pueden realizar los productos existentes.

La principal idea en la que se basa el proyecto es de crear un software abierto al que puedan tener acceso todos los programadores interesados en integrarlo en algún producto propio.

Sirius se democratizará a través de GitHub y beneficiará de un licencia BSD, lo que significa que su uso y posterior distribución serán gratuitas.

Sin embargo, lo que más llama la atención de esta plataforma abierta de asistencia virtual inteligente es el potente armazón de diversidad de tecnologías que lleva incorporadas.

Para el reconocimiento de voz usa el programa Sphinx, desarrollado por la Universidad Carnegie Mellon, en combinación con Caffe, una plataforma de aprendizaje profundo que usa las redes neuronales artificiales. La lista continua con SURF, un algoritmo que tiene la capacidad de extraer puntos clave de una imagen y que está implementado en OpenCV. Por último, para poder contestar a las preguntas, Sirius usa el sistema OpenEphyra, otra plataforma abierta creada por la Universidad Carnegie Mellon.

Los creadores de Sirius pondrán a la disposición de los desarrolladores una página que recoge la suite de descargas de todos los programas que se necesitan para instalar y, además, están trabajando en un tutorial para enseñar cómo funciona el asistente inteligente.

Imagen principal 

 

Sobre el autor de este artículo

Mihaela Marín

Mi interés por la tecnología ha nacido cuando me he dado cuenta de que nos permite ver el lado escondido de la realidad. Todavía quedan muchas cosas por descubrir y suficiente curiosidad para entender lo que realmente somos. Especializada en Periodismo y Marketing, he podido compartir experiencias con profesionales del mundo empresarial tecnológico. Siempre en búsqueda de ideas, escribo para hacer conocido el trabajo innovador, capaz de cambiar los problemas en soluciones.