General Tecnología

La exhaustividad del contenido en la Web a tiempo real

Fotografia - Oceano - ReadWriteWeb en espanolLa red es enorme. Y cada vez va creciendo más. Cada día más rápido. Es casi como un océano en el que no hay evaporación (los datos almacenados en la Web se quedan en ella prácticamente para siempre), y, sin embargo, siempre está lloviendo en él. La lluvia es el contenido nuevo que se suma al océano.

Cada tweet es una gota, cada entrada de blog es una gota, cada registro de geolocalización es una gota que cae en el océano. Este océano se encuentra casi siempre azotado por una tormenta tropical en algunos puntos, como Twitter o Facebook.

Nuestro autor invitado Julien Genestoux es el fundador y CEO de Superfeedr, una empresa dedicada a pasar feeds RSS y Atom a tiempo real. Ha implementado PubSubHubbub desde el primer día y ahora aloja varios puntos de enlace, incluyendo ReadWriteWeb, Tumblr, Posterous y Gawker. Los lectores pueden seguir a Julien en Twitter.
Cuando eres un buscador, evidentemente necesitas exhaustividad. Realmente no podemos saltarnos indexar el Océano Índico. Google envía sus barcos (sus bots) por todo el océano a los lugares donde llueve para actualizar su índice. Sin embargo, el océano crece tan rápido que finalmente será cada vez más difícil ser exhaustivo siempre.
Desgraciadamente, el océano no sólo está creciendo, sino que también llueve cada vez mas, lo que significa que si un bot se aleja demasiado de una zona, cuando vuelta, ésta habrá cambiado tremendamente. Es lo que sucede cuando vemos en un buscador resultados con 1 o 2 años de antigüedad, o más aún. No son incorrectos, a menudo simplemente suelen ser imprecisos, pero tienen un buen posicionamiento.
Es un verdadero problema técnico para los buscadores saber adónde enviar sus bots y cuál es el momento apropiado para ello. Cuando Google afirma que va a introducir datos de PubSubHubbub en su índice de búsqueda, esto es lo que intenta hacer: economizar un poco en el uso de sus barcos (sus bots).
No estoy en absoluto de acuerdo con el blogger John Batelle, que afirma que esto no es de gran importancia. Mi opinión es que él lo considera únicamente como una gran oportunidad en cuanto a técnica e infraestructura para Google, pero no tanto un beneficio inmediato para el usuario final. No estoy nada de acuerdo, y tampoco lo están los usuarios. Han demostrado no estar de acuerdo al teclear “terremoto” en Twitter Search, o incluso “Haití” o “Michael Jackson”. En aquel momento sabíamos que Google no iba a ser capaz de proporcionarnos la información que buscábamos, y esto supone una enorme pérdida para el buscador.
A Google le va a costar recuperar esta presencia. Lo primero que debe hacer es tener resultados que se hayan publicado en el mismo minuto en que los usuarios busquen estos temas.
Podríamos argumentar que si buscamos 10 veces al día en Google, quizá usamos la búsqueda de Twitter una vez a la semana. Yo también, no pasa nada. Sin embargo, sé que Twitter es mucho mejor que Google en lo referente a contextualización. Cuando hago una búsqueda en Google, espero encontrar la verdad absoluta. Si busco “terremoto”, quiero ver hechos sobre terremotos: imágenes o quizá datos históricos. Si busco “terremoto” en Twitter, busco contexto; quiero saber qué es lo que la gente está diciendo sobre terremotos ahora (¡y aquí!).

De hecho, Google siempre ha tenido muchos problemas con el contexto porque sabe muy poco sobre la gente que busca en él (o quizá sepa mucho, pero no quiere asustarnos). Añadiendo PubSubHubbub pueden recuperar la “dimensión temporal”. Puede que nunca tengan las conversaciones que tiene Twitter, pero tendrán un océano de datos mucho más grande que el mar de tweets de Twitter.

Fotografía: Pam Roth.

Original: Julien Genestoux

Sobre el autor de este artículo

Editorial RWWES