Innovación

Yahoo realiza la mayor publicación de datos de la historia para ayudar a la ciencia

datos

Se trata de la mayor publicación de datos de la historia, poniendo a disposición de la comunidad científica y técnica más de 110.000 millones de registros (acciones e interacciones con los servicios de la empresa).

Aunque salvar a la humanidad es un reto extraordinariamente ambicioso, un buen paso para ello es seguir fomentando las nuevas tecnologías y, entre ellas, el aprendizaje automático de las máquinas. En esta titánica misión, los científicos han conseguido un aliado inesperado: Yahoo. Eso es así debido al anuncio hecho público hoy por la firma de Marissa Mayer por el que el buscador, antaño hegemónico, de Internet revelará una suma ingente de datos agregados que ayuden en la investigación del aprendizaje automático.

Desde Yahoo afirman que se trata de la mayor publicación de datos de la historia, poniendo a disposición de la comunidad científica y técnica (a través de Webscope Yahoo Labs, una biblioteca de conjuntos de datos anónimos para uso no comercial) más de 110.000 millones de registros (acciones e interacciones con los servicios de la empresa), sumando un total de 13,5 Tb de información (1,5 Tb. comprimidos)

Ni más ni menos, afirman desde el portal, que diez veces más que la hasta ahora mayor revelación de información con fines científicos que se había registrado. Este fue protagonizado por la firma de marketing online Criteo, el pasado año, en el que se hicieron públicos datos por valor de 1 Tb de memoria.

Yahoo anuncia que producirá dos webseries de humor

Todos estos datos provienen de los distintos sitios web y servicios online de la empresa, incluyendo plataformas como Yahoo News o Yahoo Sports. Dicha información comprende las interacciones del usuario con Yahoo Noticias, Deportes, Finanzas, Películas, y la sección inmobiliaria. Los datos se reunieron durante cuatro meses a principios del pasado año con la actividad de 20 millones de usuarios de Yahoo. Además de los datos de interacción, los de Mayer también han liberado información demográfica agregada, incluyendo rango de edad y sexo, así como el título, resumen y las frases claves de los artículos de noticias relacionadas.

Todo por el aprendizaje automático

El objetivo de semejante movimiento altruista por parte de Yahoo no es otro que el impulsar los trabajos de las distintas organizaciones que están investigando el aprendizaje automático. No en vano, esta tecnología es la base de muchas de las novedades que más en auge se encuentran en la actualidad, como el coche autónomo.

Mediante algoritmos y modelos, estos sistemas son capaces de ir aprendiendo sobre la marcha (incluso con videojuegos) del comportamiento de los humanos, prediciendo cada vez con mayor exactitud sus necesidades y ofreciendo servicios más precisos y adecuados. Un ejemplo de ello son los sistemas de reconocimiento de imágenes de redes sociales como Facebook, el traductor de idiomas de Google, los motores de recomendación de Netflix y Amazon, la respuesta automática a mails o la detección de spam en el correo electrónico. Sin embargo, las posibilidades del aprendizaje automático aún no pueden ni ser vislumbradas por nuestra generación…

Sobre el autor de este artículo

Alberto Iglesias Fraga

Periodista especializado en tecnología e innovación que ha dejado su impronta en medios como TICbeat, El Mundo, ComputerWorld, CIO España, Kelisto, Todrone, Movilonia, iPhonizate o el blog Think Big de Telefónica, entre otros. También ha sido consultor de comunicación en Indie PR. Ganador del XVI Premio Accenture de Periodismo y Finalista en los European Digital Mindset Awards 2016.