Español | English
rss facebook linkedin Twitter

Mashups, Web Scraping y News Radar

Aunque Internet en sus comienzos (en realidad, la parte “web” de Internet) puede verse como un conjunto heterogéneo de sitios web que no responden a estructuras predefinidas (y que a veces ni siquiera cumplen con los estándares establecidos), la aparición de formatos basados en XML que permiten recibir la información de forma estructurada facilita el nacimiento de nuevas aplicaciones. RSS y ATOM son dos claros ejemplos de este tipo de formatos.

Una de las ventajas de estos formatos estructurados es que se puede “hacer cosas” con la información, ya que por ejemplo, dada una noticia, podemos conocer cuál es el título, cual es el cuerpo de la noticia, etc. En general, el término ‘mashup’ podría definirse como “sitio web o aplicación web que usa contenido de otras aplicaciones Web para crear un nuevo contenido completo, consumiendo servicios directamente, siempre a través de protocolo http”, pero en el contexto de los feeds rss consistiría en crear un feed a partir de otros, bien sea simplemente sumando las entradas o realizando algún tipo de procesamiento. Cuando estos ‘mashup’ están destinados a recabar noticias de diferentes fuentes en tiempo real y de manera continua, se suelen denominar ‘News Radar’.

El término ‘Web Scrapingdefine otra forma de abordar el problema, extrayendo información concreta de una fuente no estructurada. Basa su utilidad en el escenario caótico de la web que describíamos al principio y un buen ejemplo podría ser el procesado de la portada de la edición digital de cualquier periódico para extraer el pronóstico del tiempo y mostrarlo en otro sitio web.


En cuanto a aspectos más prácticos, hay muchas aplicaciones que facilitan la creación de mashups. Una de las más útiles es Yahoo Pipes, que permite generar un feed a partir de otros y hacer operaciones interesantes como eliminar duplicados, filtrar por contenido (entradas que contengan cierto término), truncar los feeds, traducir las entradas, filtrar por fecha y un largo etcétera. Se puede mezclar esto con las salidas de tipo RSS que permiten muchos buscadores -aunque no ofrezcan la opción de manera visible-, o con feeds que cada vez que son invocadas realizan una búsqueda (Google Alerts).

Sin embargo, y aunque es indiscutible la utilidad de este tipo de soluciones para la protección de la imagen de marca, en la práctica son muchas sus carencias y esto se acentúa en cuanto el volumen de información deja de ser pequeño, lo que impide que puedan resultar una solución en sí mismas. Son necesarias estructuras mucho más complejas para este propósito que permitan el análisis automático de la información, como tecnologías de lingüística computacional, categorización, etc.
Y ya sabéis, las posibilidades son muy amplias, y también hay documentación “for dummies” ;)

Más información:


Alberto Yoldi
S21Sec e-crime

2 comentarios:

Nerja Technologies dijo...

Muy buen post, graciass

Sandra dijo...

Muy buen posteo, necesitaba esa información. Muchas gracias.


(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login