Tecnología

Los vectores espaciales, el sistema elegido por Google para mejorar su servicio de traducción

Machine translation
Escrito por Mihaela Marín

El método ha sido desarrollado por Tomas Mikolov y sus compañeros y se apoya en la minería de datos para modelar la estructura de una lengua y luego compararla con la estructura de otro idioma.

Google Translate ha hecho progresos importantes hasta el momento. Actualmente la aplicación cuenta con 500 millones de usuarios activos mensuales que consultan su servicio ampliado ya a más de 90 idiomas y en el caso de algunas de las lenguas más demandadas con opción incluso de escuchar la traducción.

Pero el esfuerzo de mejorar el algoritmo capaz de entender la comunicación humana es un largo y difícil trabajo de desarrollo que los de la compañía del buscador están decididos en seguir afinando.

El New York Times vaticinaba esta semana lo que Google ha confirmado después: que está a punto de anunciar significativos cambios en la aplicación móvil de Translate, su herramienta de traducción. Pronto serán una realidad en España, donde el gigante de Internet ha hecho público que a partir de los próximos días se podrán traducir textos y conversaciones de forma simultánea en iOS y Android. Los cambios permitirán al sistema reconocer si alguien está hablando un idioma popular y convertirlo de formaautomática en texto escrito.

La traducción encuentra una solución en las matemáticas

Hay que señalar que el paso hacia la traducción del habla a través del cual Google quiere mejorar la experiencia de su aplicación, no es más que el resultado de una investigación vinculada a la resolución de una cuestión de matemáticas: un problema de vectores espaciales.

Para el equipo de Google la relación entre traducción y vectores ha sido la respuesta que buscaban para abordar una dificultad a la que se enfrentaban y por la que precisaban contar con diccionarios compilados por expertos humanos a lo largo de un proceso muy largo y complejo.

La idea en la que se basa el proceso de traducción es en la de comparar un número de palabras y frases de un idioma con los de otro idioma, un proceso marcado por un una serie de propiedades estadísticas similares. Profundizando más en el tema, Tomas Mikolov y un grupo de compañeros de Google han desarrollado una técnica que genera de forma automática diccionarios y tablas de conversión que convierten un lenguaje en otro.

En lugar de usar versiones de un mismo documento en diferentes idiomas, el método se apoya en la minería de datos para modelar la estructura de una lengua y luego compararla con la estructura de otro idioma.

Un sistema para representar los “espacios del idioma”

¿Qué ha sido lo que le ha permitido al equipo de Google poner en práctica su innovador enfoque? La ayuda ha venido por parte de la representación vectorial.

Partiendo de la idea de que la descripción de una idea tiene su símil en los distintos idiomas, han deducido que la teoría podría aplicarse también en el caso de las palabras. Con este fin en Google han creado un sistema de gráficos vectoriales para representar las relaciones, también llamadas “espacios del idioma”, que se establecen entre las palabras. Por ejemplo, la serie “rey – hombre + mujer es igual a reina” debería mantenerse cierta en todos las lenguas.

La traducción automática pasa de ser un problema lingüístico a uno matemático, finalmente reducido a la inteligencia de un algoritmo informático entrenado para identificar la clave de la transformación de un espacio vectorial en otro y, una vez realizada la tarea, aplicarla a “espacios de idioma” mayores.

La táctica ha servido al equipo de Mikolov a mejorar sus resultados hasta hacerla funcionar incluso para las parejas de lenguas no tan relacionadas: “A pesar de su simplicidad, nuestro método es sorprendentemente eficiente: podemos obtener casi 90% de precisión para la traducción de palabras de inglés a español”, explica el experto.

Desde esos descubrimientos iniciales el enfoque de los vectores espaciales se ha refinado más, siendo capaz actualmente de aplicarse con la misma eficacia para la traducción de las fotos. Según los últimos anuncios del equipo de Google, el algoritmo podría integrarse al servicio de traducción de la compañía para convertir las imágenes en texto escrito de cualquier idioma.

A pesar de todos los pasos que se han dado para mejorar el aprendizaje automático de los sistemas informáticos, Google Translate está lejos de la perfección. Los aspectos de gramática o el problema de interpretar el sentido particular de la entonación o del humor en el caso de las conversaciones, quedan entre algunos de los aspectos pendientes a la hora de realizar las traducciones simultáneas online.

Aun así, no hay que olvidar que el programa utiliza una red neuronal artificial a gran escala y así es como se adapta a los nuevos usos, siendo capaz de mejorar su aprendizaje de forma continua. La técnica seguramente acercará a los investigadores de la compañía del buscador a más avances en el futuro.

Imagen principal 

Sobre el autor de este artículo

Mihaela Marín

Mi interés por la tecnología ha nacido cuando me he dado cuenta de que nos permite ver el lado escondido de la realidad. Todavía quedan muchas cosas por descubrir y suficiente curiosidad para entender lo que realmente somos. Especializada en Periodismo y Marketing, he podido compartir experiencias con profesionales del mundo empresarial tecnológico. Siempre en búsqueda de ideas, escribo para hacer conocido el trabajo innovador, capaz de cambiar los problemas en soluciones.