Español | English
rss facebook linkedin Twitter

Extracción de Información (1)

Reconocimiento y Clasificación de Entidades con Nombre

En este mismo blog se ha hablado múltiples veces sobre reputación online, búsqueda de personas en la web y en general el análisis de contenido textual con el objetivo de proteger los activos de información de una compañía en la web.

Para conseguir este objetivo repasaremos en sucesivos posts las tareas principales dentro de la Extracción de Información. El objetivo de la Extracción de Información es el de extraer automáticamente información estructurada a partir de documentos no estructurados. Algunos ejemplos son la extracción de todos los datos personales de un texto, la relación existente entre dos compañías, localización de eventos, etc.

Una de las principales tareas dentro de la Extracción de Información es el Reconocimiento y Clasificación de Entidades con Nombre (NERC). Esta tarea trata de reconocer unidades de información tales como nombres de persona, organizaciones, lugares y expresiones numéricas como fechas, cantidades monetarias, etc. Una de las personas más influyentes en este campo es Satoshi Sekine, quien definió un conjunto de 150 clases de entidades con nombre.

Algunos factores a tener en cuenta antes de enfrentarnos a esta tarea son:
  • Lengua: las particularidades lingüísticas de cada idioma y la gran diferencia a nivel de investigación y desarrollo en el procesamiento del lenguaje hace que el NERC obtenga resultados heterogéneos según la lengua en la que están escritos los documentos

  • Género literario y corrección lingüística: artículos periodísticos, científicos, informales, etc. utilizan distintos criterios semánticos, sintácticos y formales en su composición.

  • Dominio: textos sobre deportes, economía, cultura, etc. incluyen vocabulario y expresiones específicas del dominio.

Las técnicas empleadas en el NERC pueden dividirse en dos grupos: aquellas que utilizan reglas gramaticales construidas a mano, y sistemas de aprendizaje automático.

En el primer caso se codifican reglas particulares para cada tipo de entidad capaces de reconocer las entidad bajo un contexto y determinadas características como el tipo de caja tipográfica (palabras en mayúsculas, minúsculas, capitalizadas o con caja mixta), la categoría morfosintáctica (categoría gramatical, género, número, etc.) y características semánticas, definidas como listados de palabras que comparten un rasgo semántico en común (listado de ciudades, nombres de persona, etc.). Un regla sencilla para reconocer Universidades podría ser:

Universidad [PALABRA-CAPITALIZADA]? de [LUGAR]

donde el símbolo "?" indica opcionalidad. Esta regla reconocería Universidad Autónoma de Barcelona, Universidad Complutense de Madrid, Universidad de Navarra, etc.

En el segundo caso, el NERC mediante sistemas de aprendizaje automático, codifican un conjunto de rasgos de la palabra a analizar y su contexto en vectores. Algunos rasgos habituales son la caja tipográfica, categoría morfosintáctica, prefijos, sufijos, signos de puntuación (p.ej. I.B.M.), etc. Los métodos de aprendizaje supervisado se basan en la anotación manual del tipo de entidad en textos (corpus de entrenamiento) para que el sistema automáticamente cree un modelo a partir del cual reconocer y clasificar las entidades en nuevos textos sin anotar.

Estos sistemas han conseguido rendimientos similares a los humanos. Un 93,39% en la medida f-measure, que resume cobertura y precisión, frente al 97.60% en anotaciones realizadas por humanos, según el mejor resultado de la conferencia MUC-7.

El Reconocimiento y Clasificación de Entidades con Nombre se ha convertido en la piedra angular en cualquier sistema de Extracción de Información, y sirve de base en la resolución de tareas más complejas relacionadas con el procesamiento del lenguaje.


Israel Varea
S21Sec e-crime

(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login