Español | English
rss facebook linkedin Twitter

El Internet que no se ve

Siguiendo con el tema de recolectar información y arañas web de días pasados voy a abordar el tema de la internet invisible, también conocida como DeepNet. No todos los contenidos de la red están catalogados por los motores de búsqueda o simplemente no están accesibles a todo el mundo. Además según estimaciones antiguas (año 2003), la cantidad de información no indexada por buscadores supera entre 100 y 1000 veces a la indexada.

Hay muchos tipos de páginas y muchas razones por las cuales estos contenidos no están indexados, por citar los más importantes:

  • Páginas sin preenlazar. No existe ninguna página que haga referencia a esta página.
  • Contenido de Pago. Como los artículos de la IEEE, revistas científicas, contenido X y superior, etc...
  • Contenido Dinámico. La url contiene una llamada a un cgi, ajax o similar que exige unos parámetros concretos.
  • Contenido Privado. Páginas no públicas de una empresa, intranets, servidores caseros.

Muchas veces contenidos delictivos suelen publicarse en esta parte de internet, como pedofilia, contrabando y un largo etcétera; haciendo difícil, por no decir imposible en muchos casos la persecución de dichos delitos.

La existencia de DeepNet es similar a la pregunta zen, "Si un árbol cae en el bosque y nadie lo oye, ¿realmente ha hecho ruido?", "Si una información se publica en internet y nadie lo sabe, ¿realmente existe?".

¿Qué se puede hacer para encontrar todas estas páginas? Actualmente se están desarrollando buscadores como el DeepPeep.org para acceder a una mínima parte de la DeepNet, y requerirá en un futuro de cambios a nivel de algoritmos de rastreo, adición de protocolos nuevos o legislativos para obligar a indexar esa información.

http://en.wikipedia.org/wiki/Deep_web
http://en.wikipedia.org/wiki/Sitemaps

Eduardo Morrás
S21sec e-Crime

(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login