Español | English
rss facebook linkedin Twitter

Visualización de datos y análisis de foros

Unos meses atrás un compañero hacía una introducción a la visualización de datos en la que definía el término y la metodología básica para “materializar” una información de manera gráfica.

Podemos ver diferentes ejemplos aplicados a nuestro campo en SecViz, sitio especializado en el tema donde encontraremos representaciones visuales creadas a partir de flujos de comunicación entre sistemas autónomos, nodos y relaciones en una botnet o basadas en la estructura de códigos maliciosos por poner algunos ejemplos. Sin duda esta técnica nos permite un mayor entendimiento de fenómenos complejos con grandes cantidades de datos y relaciones a tratar, resultando en un enfoque indispensable como complemento a otros tipos de análisis.

Me preguntaba hasta que punto sería posible aplicar está técnica al estudio de foros como el desmantelado darkmarket y similares con el objetivo de representar las relaciones entre usuarios, mensajes , acciones y poder establecer ciertos parámetros como el grado de “implicación” de los usuarios en el sistema, su especialización (compra y/o venta de información, soporte, recursos , desarrollo,etc.) y en general cualquier dato que pueda ayudar a conseguir una mejor perspectiva de este entorno.

Sería un concepto similar al recientemente abandonado Nexus aplicado a Facebook o al mapa de relaciones que Josh On creó en theyrule donde a partir de información pública crea una gráfica interactiva de instituciones, directivos y su relación entre ellos.


En un caso hipotético empezaríamos definiendo la información que queremos visualizar: a nivel básico serían las relaciones entre los miembros del foro, su “peso” específico dentro del mismo y el grado de especialización (que constaría de distintas categorías). Para este menester sería necesario crear un sistema de puntuación de la relevancia de mensajes y usuarios, además de otro de clasificación que englobe aquellos aspectos tratados en ese foro (carding, venta de infraestructura, desarrollo de malware, etc.) para obtener el tipo de especialización/importancia de un usuario.

Paralelamente evaluaríamos los datos iniciales que serían en un principio aquellos accesibles a través de la parte pública del foro (nombre de usuario, número de mensajes enviados total, número de mensaje nuevos, número de respuestas, antigüedad, rango interno, respuestas por mensaje, visitas de los mensajes, etc.) y los datos obtenidos fruto de aplicar los algoritmos de puntuación/clasificación previamente comentados (puntuación respecto a una categoría, respecto a otros usuarios, especialización, relevancia de mensajes, etc.).

Supongamos que hemos superado con éxito las etapas de definición del problema, evaluación y recolección de datos, hemos conseguido establecer los parámetros comentados previamente y finalmente todos estos datos quedan plasmados en el archivo analysis.csv, incluyendo tanto la información extraída del análisis del foro como la “deducida” por nuestros algoritmos.

En la siguiente etapa (transformación visual), deberíamos saber qué tipo de gráfico utilizaremos para que la información se pueda visualizar de manera clara. Podemos utilizar una herramienta como Afterglow mediante el comando “cat analisys.csv | perl afterglow.pl -c color.properties > analysis.dot” para generar un archivo compatible con GraphWiz, o crear la gráfica con herramientas como yET , prefuse, Ggobi o alguna solución comercial como Touchgraph .

Después de pasar nuestro archivo ficticio por Touchgraph el resultado es un mapa de relaciones interactivo (ver la siguiente ilustración para hacerse una idea del aspecto) donde se muestra la puntuación del usuario, relaciones, mensajes enviados, especialización y aquellos puntos definidos en anteriores etapas de nuestro ejemplo.

Esta visualización debería exponer una nueva perspectiva de todo el entramado de relaciones, especializaciones, comunicaciones y cualquier otro parámetro que hayamos definido previamente.

Puestos a pedir, y como conclusión, algunas ideas sobre cómo podría ser la versión “extended” de nuestro sistema ficticio (con cierto aire Big Brother), podría contemplar el cruce de datos y relaciones entre otros foros, análisis de otros canales de comunicación, la generación del mapas de relaciones en tiempo real, aspectos económicos del mercado (precios de venta, tipos de bienes), etc.

Daniel L. Creus
S21sec e-crime

(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login