Español | English
rss facebook linkedin Twitter

De Psiquiatras y Mineros.

Según Wikipedia, la Minería de Datos o Data mining es "La extracción de información potencialmente útil, no trivial, implícita y desconocida a partir de datos previamente conocidos"...

A veces la Minería de Datos puede ser tan sorprendente como una visita al Psiquiatra: "Su problema es complejo Sr. Log; tiene la rara costumbre de girar sobre sus talones 360º antes de pasar por una puerta, y además, si la puerta es verde, da dos palmadas. También es extraña su tendencia a lanzarse contra las farolas sin previo aviso, al menos tres veces al día [...]. Pero puede estar tranquilo, hemos descubierto el origen de su dolencia y tenemos el tratamiento adecuado: No vuelva a bajar de su casa por las escaleras, use siempre el ascensor."

La situación parece bastante compleja, y el Psiquiatra un ente superior muy poderoso. Pero lo que no se cuenta es que para dar con el origen del problema, y el tratamiento adecuado, el Psiquiatra ha tenido muy en cuenta una de las más potentes herramientas que tenemos a nuestro alcance cuando se trata de descubrir información oculta entre grandes volúmenes de información: la Minería de Datos.

Las prácticas de Data Mining se aplican en los más diversos campos: agricultura, economía, deporte... y permiten la inferencia y evaluación de patrones de comportamiento que a primera vista serían imposibles de deducir. Para ello, se utilizan algoritmos de tratamiento de información, desde los más simples y conocidos (estadísticos, relacionales, predictivos...) hasta los más actuales (algoritmos genéticos, inteligencia artificial, redes neuronales, etc).

Cuando hablamos de Seguridad, el Data Mining es esencial si se quiere que la gestión de la prevención se adelante a los patrones y técnicas que puedan comprometer los sistemas. Pensemos en la información sensible más crítica para cualquier organización: Sus Logs de seguridad.

Ingentes cantidades de logs se reciben diariamente y quedan almacenados sin otra misión que la de cumplir la ley. Hasta hace poco tiempo, estos datos eran valorados por las empresas como un mero recurso para la detección de problemas en tiempo real, o como origen de datos para la realización de análisis forense tras un incidente, cuando en realidad pueden ser la fuente para descubrir las vulnerabilidades y deficiencias globales en sus infraestructuras tecnológicas.

Actualmente hay un buen número de estándares , certámenes y software dedicados en exclusiva a este campo, cuya integración implica gran cantidad de recursos que pocas compañías pueden asumir. Pero también es posible utilizar solamente aquellas piezas del rompecabezas que más se adapten a las necesidades concretas para ciertos conjuntos de datos. La Teoría de la Información es la base para un acercamiento práctico a esos problemas concretos; un ejemplo sencillo sería el concepto de entropía de información, que se define como "Medida de la incertidumbre existente ante un conjunto de mensajes, de los cuales se va a recibir uno solo", y este conjunto encaja exactamente con nuestro objetivo: los Logs de Seguridad.

La aproximación es sencilla: un servicio en producción cualquiera mantiene un patrón de comportamiento repetitivo, y cualquier variación en estos patrones tiene un significado concreto (caídas, picos de carga, ...). La variación en estos patrones, cuando hablamos de Logs, generalmente se tratan posteriormente a la recepción de los eventos, y solo con consultas previamente decididas. El calculo de la entropía de cada evento en relación con el conjunto de los mismos, puede ayudarnos a discernir cuando lanzar las consultas concretas ante los cambios relevantes en un Log. No podemos extendernos con el código, pero hay algún artículo bastante descriptivo, y en PhpMath hay numerosos ejemplos y métodos aplicables a la Minería de Datos sobre Texto.

Estas técnicas no se aplican solo como medidas de defensa y prevención. Como sabemos, un buen número de intrusiones, robo de datos y ataques se han llevado a cabo gracias a información extraída con estos métodos. Ambos bandos luchamos con armas parecidas.

Como vemos, nuestro Psiquiatra, gracias a las muchas sesiones en las que el paciente le contaba cosas aparentemente inconexas e irrelevantes, ha podido deducir que eran las escaleras de casa de su paciente las que desencadenaban unos recuerdos traumáticos reprimidos, a los que respondía con actos anómalos en ciertas situaciones, todas relacionadas con una situación grave que ya olvidó: (su chica le dejó en las escaleras de un hotel con puertas verdes giratorias, y al cruzar la calle corriendo a buscarla, se rompió la nariz contra una farola [...], lo que demuestra que la Minería de Datos y los psiquiatras nos ayudan a descubrir cosas que de otra forma, nunca sabríamos que estaban ahí.

2 comentarios:

Anónimo dijo...

Muy interesante!

Una pregunta, hasta qué punto los patrones repetitivos son identificados por estos algoritmos? Hay muchos falsos positivos?

breakers INC dijo...

Hola, & gracias por tu interés!

Por lo general, la aplicación de algoritmos de rastreo de patrones sobre un origen de datos, conlleva la aparición de estructuras no relevantes la mayoría de las veces. Por ejemplo, si se detecta la caída de un grupo de servicios web, todos los días, a las 03AM, no es relevante si sabemos que se reinician de manera controlada. Pero no son falsos positivos, porque las alertas de seguridad se van a basar en la aparición de discrepancias o comportamientos que se salgan de "lo normal", y lo normal son esos patrones previamente detectados. De cualquier manera, no se delega la categorización de alertas a esos algoritmos, sino que son una pieza más en la detección de problemas, y valen como primer aviso de que "algo" está cambiando, o se sale de lo que a lo largo del tiempo ha sido "normal", una vez detectado el cambio, se pasa a estudiarlo. Así, el Data Mining no genera falsos positivos, sino que ayuda a detectarlos y descartarlos.

Un saludo!


(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login