Big Data

Quandl, el Youtube de los datos

Quandl_Logo_Text
Escrito por Marcos Merino

Quandl es un buscador y herramienta de visualización de series temporales de datos que ahora empieza a ofrecer la posibilidad de subir nuestros propios datasets a su plataforma.

“Encontrar y dar formato a datos numéricos para analizarlos en R o Excel o cualquier otra aplicación es un dolor que todos los analistas de datos conocen muy bien. En conjunto, probablemente habré pasado semanas enteras de mi vida tratando de encontrar datos en la web. Y varias semanas más validando, formateando y limpiando dichos datos. […]. La solución a este problema es conceptualmente obvia: un sitio web con toda la información del mundo, con un formato agradable y documentado. Siguen apareciendo y desapareciendo plataformas que aspiran a este objetivo: aparecen porque son grandes ideas; desaparecen porque exigen a los editores cargar y mantener los datos en un sitio externo”.

Esta reflexión tiene la firma de Tammer Kamel, un científico de datos canadiense que en 2012 fundó junto a Abraham Thomas su propia plataforma, superando la esperanza de vida y el éxito de sus rivales. Su nombre es Quandl, cuenta con un equipo de 12 ingenieros y los medios ya la han descrito como “el Youtube (o la Wikipedia) de los datos”.

Realmente, combina funciones de búsqueda de series de datos (pudiendo filtrar por fuente o frecuencia de los mismos, así como llevar a cabo búsquedas booleanas), con la posibilidad -aún en fase de pruebas- de que los usuarios suban a la plataforma sus propios datasets (el último y más destacado ejemplo es el de Thomas Piketty, el afamado autor del bestseller económico “El Capital del s. XXI”, que recientemente subió los 75 datasets sobre crecimiento económico y medición de la desigualdad que recopiló para escribir su obra). Recientemente añadieron también una colección de datasets que -al contrario de la mayoría de información contenida en el sitio- ha sido recopilada por el propio equipo de Quandl: se llama Quandl Open Data (“Puedes copiar, distribuir, difundir o incluir los datos en otros productos con fines comerciales y/o no-comerciales. No hay restricción alguna sobre el uso de estos datos”) y agrupa el histórico diario de más de 3000 valores bursátiles.

Quandl se especializa en series temporales de datos, que son sometidas a una labor de curación de contenidos por parte tanto de expertos como de la comunidad de usuarios y ofrecidas en colecciones. Ofrece también la posibilidad de descargar sus datos en múltiples formatos (Excel, Matlab, JSON, CSV, XML) con independencia de en cuál de ellos se publicó originariamente, así como una API que permite a aplicaciones de terceros descargar y ofrecer visualizaciones de los datos alojados en la web.

Usando Quandl

Veamos un ejemplo de su uso. Introduzcamos “Spain” en el buscador de Quandl y elijamos alguno de los datasets que aparecen. Por ejemplo, “Rural population” (“Población rural”). Una vez hayamos accedido, aparecerá una visualización de los datos (modificable mediante opciones como el intervalo de tiempo presentado, o la periodicidad de los datos). Debajo podremos sustituir la visualización gráfica por la de la propia tabla de datos, que podremos descargar en el botón superior. Mientras, en la barra lateral podremos acceder a la descripción del dataset, al enlace a los datos originales (en este caso, se nos remite al Banco Mundial), así como la fecha en que fue actualizado por última vez:

quandl_example

Sobre el autor de este artículo

Marcos Merino

Marcos Merino es redactor freelance y consultor de marketing 2.0. Autodidacta, con experiencia en medios (prensa escrita y radio), y responsable de comunicación online en organizaciones sin ánimo de lucro.