Español | English
rss facebook linkedin Twitter

Extracción de Información (2)

Correferencias

En el anterior artículo sobre extracción de información halábamos sobre la importancia de localizar entidades con nombre como lugares, personas, organizaciones, etc. en documentos extraídos de Internet para monitorizar y proteger la información pública relativa a los activos de información de una compañía (datos personales de directivos, eventos públicos, productos y servicios, etc.).

Para mejorar la calidad y el estilo en la redacción de textos es aconsejable evitar la repetición de palabras, en especial nombre propios.

La Resolución de Correferencias es el proceso de extracción de sintagmas nominales que se refieren a la misma situación en el texto. Este proceso es vital para aplicaciones relacionadas con el procesamiento del lenguaje tales como la traducción automática, resumen automático de textos y sistemas de pregunta-respuesta.

Podemos distinguir tres tipos de correferencias:

  • Correferencia pronominal: Utilización de pronombres para referirse a una entidad.
    Vamos a perder esta votación y esta moción le llegaría al Gobierno. Él verá cómo actúa.
  • Correferencia ortográfica: Variantes del mismo nombre relacionados ortográficamente, abreviaturas de nombre, acrónimos, etc.
    El presidente del Gobierno, José Luis Rodríguez Zapatero, anunció ayer (...). También anunció Zapatero que su Gabinete estudiará (...).
  • Correferencia metonímica: Utilización de conceptos semánticamente relacionados con la entidad.
    La alegría que recorrió ayer la Bolsa tuvo como uno de sus protagonistas a Telefónica. El valor subió un 2,09%, hasta los 17,84 euros por acción, después de que el primer operador nacional de telecomunicaciones aguantara el tipo en la zozobrante coyuntura económica actual (...). La compañía que preside César Alierta ganó (...)

¿Cómo podemos resolver la correferencia?

Existen varias aproximaciones para encontrar referentes de una entidad. Examinemos una de ellas, basada en aprendizaje automático, propuesta por [2]. Para clasificar se extraen atributos de cada posible referente tales como:

  • Distancia entre referente y referido.
  • Categoría gramatical (nombre, pronombre, etc.)
  • Si el posible referente es una subcadena del referido
  • Si es un sintagma nominal
  • Concordancia de género
  • Concordancia de número
  • Tipo de entidad si es una entidad
  • Si referente y referido están en aposición

Partiendo de un conjunto de documentos donde hemos identificado manualmente los referentes y referidos, se entrena un clasificador (SVM, redes neuronales, etc.) y posteriormente se utiliza este clasificador para determinar si existe correferencia entre los términos.

La resolución de correferencias nos ayudará a obtener una mayor cobertura en el análisis de textos donde el objeto de estudio se centre en determinadas entidades con nombre.


Referencias:

[1] Orsan, C., Cristea, D., Mitkov, R., Branco, A. Anaphora resolution exercise: An overview. In: Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco (May 2008)

[2] Wee Meng Soon , Daniel Chung , Daniel Chung Yong Lim , Yong Lim , Hwee Tou Ng. A Machine Learning Approach to Coreference Resolution of Noun Phrases (2001)

Israel Varea
S21Sec e-crime

1 comentario:

Anónimo dijo...
Este comentario ha sido eliminado por un administrador del blog.

(+34 902 222 521)


24 horas / 7 días a la semana



© Copyright S21sec 2013 - Todos los derechos reservados


login