Español | English
rss facebook linkedin Twitter

Procesado automático de HTML

En este post vamos a abrir un tema de suma importancia en la clasificación automática del contenido web. ¿qué problema es este?, muy sencillo, la cantidad de ruido que puede observarse dentro del código HTML de cada página.

¿Por qué es importante?
Muy sencillo, dentro de una página web no tienen la misma importancia para un usuario normal que la visite, los banners publicitarios, o el copyright que la noticia central de una página. Veamos el ejemplo de la siguiente imagen:


Como se puede apreciar la información real del texto contenido en dicha página difiere mucho dependiendo de factores como la localización, tamaño, resaltados, etc... Entonces si queremos obtener qué información es importante de una página web es imprescindible el poder "eliminar" el ruido y ponderar efectivamente la información contenida en dicho código HTML.

¿Qué soluciones hay?
Actualmente hay varios estudios y diferentes implementaciones, casi todas ellas se basan en segmentar el contenido de la página web en diferentes bloques semanticamente identificables mediante diferentes técnicas. Con ello se consigue separar las zonas más importantes (desde el punto de vista del usuario final) para posteriormente ser procesadas por diferentes algoritmos de clasificación y filtrado de información.

¿Qué ventajas aporta?
Está claro que para un usuario normal ninguna, estas son técnicas relacionadas para el procesado automático de la información o Web Mining. Si automaticamente se "separa" y "pondera" la información útil de una página web la clasificación final será mucho más efectiva.

En posteriores post iremos ampliando información.


Referencias:
  • Automatic Detection of Fragments in Dynamically Generated Web Pages (Lakshmish Ramaswamy, Arun Iyengar, Ling Liu, Fred Douglis)
  • Eliminating Noisy Information in Web Pages for Data Mining (Lan Yi, Bing Liu, Xiaoli Li)


José María Arce Guillén
S21sec labs Vigilancia Digital

(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login