Español | English
rss facebook linkedin Twitter

Recolectando información

Muchos de vosotros ya conoceréis el termino "web crawler" o "araña web"; para los que no, simplemente debéis saber que una "araña web" no es más que un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada.

Muchos sitios de Internet, tales como google, utilizan este tipo de software para recorrer las paginas en la Web, descargarlas y posteriormente procesarlas. Así pues, tenemos que gracias a este tipo de software, la información que hay dispersa por Internet queda de alguna manera guardada y clasificada en un sitio centralizado.

Por otro lado, hay que recalcar que las "arañas web" no solo son utilizadas por buscadores, también existen programas conocidos como spambot. Estos, al igual que las "arañas web", también son programas dedicados a inspeccionar paginas web de manera metódica y automática, pero, en esto caso, la finalidad de estas "arañas" es la de recolectar direcciones de e-mail, para después bombardear estas últimas con publicidad.

Las arañas web pueden realizar peticiones a los sitios web mucho mas rápido que una persona humana, es por esto que pueden tener un impacto considerable en el rendimiento de un servidor. Si mas de una "araña" hiciera peticiones a un mismo servidor de manera continuada, es muy posible que ese servidor se colapsara y no pudiera responder a todas las peticiones.

Una solución parcial a este problema es el "protocolo de exclusión de robots", también conocido como protocolo "robots.txt". Se trata de un estándar por el cual los administradores de los sitios web indican a las "arañas" a que partes de la web pueden acceder.

Si bien, la mayoría de "arañas" respetan los contenidos del archivo "robots.txt", algunas de ellas no lo hacen, por lo que, surge la necesidad de desarrollar métodos alternativos para bloquear este tipo de "arañas". Así, tenemos lo que se denomina "spider traps", que básicamente consisten en mecanismos implementados dentro del servidor, que hacen que la "araña web" entre en un loop infinito, malgastando así los recursos de esa "araña" y haciéndola menos productiva.

Aunque, sin duda, la manera más llamativa de evitar que una "araña" sea "atrapada" es conocida como "covert crawling", que consiste en programar "arañas" que imitan el comportamiento (mas bien los hábitos de navegación) de los seres humanos. Parece una tarea difícil, ¿verdad?. Las personas no navegan por todos los enlaces de una web, así que de alguna manera hay que crear un algoritmo que se encargue de decidir por que enlaces se va a navegar.

Al hilo del "covert crawling" tenemos el trabajo desarrollado por Billy Hoffman, el cual desarrolló una araña que adoptaba diferentes "personalidades" por cada hilo de ejecución.



Asier Marruedo
S21sec e-crime

1 comentario:

jose luis dijo...

ARAÑAS O PULPOS ,cual sera la realidad futura si en una situacion de comflicto belico ,desesperacion de catastrofe o afines estas llamadas arañas se construyeran de manera licenciosa y maliciosa para acaparar una multitud de Servidores ,inhibiendo su desarrollo normal o bloqueando la imformacion tan vital en momentos de angustia,desesperacion e inquietud que siguen a los momentos funestos en que el auxilio y la peticion de ayuda dependen de segundos ,minutos o tiempos breves para la sobrevivencia.


(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login