Nuevos sistemas de aprendizaje para detectar palabras clave en lingüística computacional

Noa Cruz 3El desarrollo de nuevos sistemas de aprendizaje automático que determinen palabras claves de negación y especulación ha abierto nuevos caminos en la comunidad investigadora del Procesamiento del Lenguaje Natural (PLN). Para el campo de la lingüística computacional es ésta una de las principales aportaciones de la tesis “Detección de la negación y la especulación en textos médicos y de opinión”, defendida por la doctora Noa Cruz, del Departamento de Tecnologías de la Información de la Universidad de Huelva.

Este trabajo se centra en los dos dominios en los que la negación y la especulación como información lingüística han recibido más atención: el biomédico y el de los artículos de opinión. En el primero, el método propuesto mejora los resultados obtenidos hasta la fecha para la sub-colección de documentos clínicos del llamado corpus Bioscope, que integra todo el conocimiento exacto dentro del ámbito de la investigación biomédica. En el segundo, la novedad de esta tesis radica en que aporta el primer sistema entrenado y evaluado en la colección de artículos de opinión Simon Fraser University anotado con información negativa y especulativa, al tiempo que supone el primer intento en detectar la especulación en este dominio.

Según la investigadora onubense, ingeniera informática, “se trata de identificar a nivel de la frase los tokens o unidades básicas del lenguaje (números, signos de puntuación, palabras, etc.) que se ven afectados por las palabras claves de negación y especulación”. En cuanto al ámbito biomédico la tesis de Cruz supone el primer estudio de evaluación comparativo de tokenizadores. En este sentido, aporta una información de enorme utilidad para desarrolladores de PLN a la hora de elegir las herramientas de tokenización más apropiadas como primera fase de cualquier tarea de lo que en lingüística computacional se denomina minería de texto.

Con respecto al dominio de los textos de opinión, hay sólo unos pocos trabajos sobre la detección de la información lingüística negativa y no hay ningún trabajo en la identificación de la especulación. El trabajo de Noa Cruz pretende corregir esta deficiencia con el desarrollo de un sistema que reconoce automáticamente tanto las palabras clave de negación y especulación como su alcance. En la comparación de ambos dominios, Cruz destaca que el porcentaje de información negativa y especulativa en el dominio de artículos de opinión es mayor que en el biomédico, debido a que los textos clínicos se distinguen por las frases cortas propias del lenguaje médico frente a los textos de opinión, en los que el estilo es más literario y de mayor riqueza lingüística.

El desarrollo de nuevos sistemas de aprendizaje automático para determinar palabras claves de negación y especulación que propone este trabajo, es decir, la identificación precisa de este tipo de información, podría beneficiar a muchas de las aplicaciones que el campo de la lingüística computacional pone al servicio de los estudios científicos.

Premio nacional a la investigación

“Detección de la negación y la especulación en textos médicos y de opinión”  ha obtenido el primer premio en la XIII Edición de los Premios SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural) a la Investigación en Procesamiento del Lenguaje Natural, cuyo objetivo es la promoción y divulgación de la investigación en este campo. Este premio está enmarcado dentro del Congreso de esta sociedad, en el anualmente tienen lugar sesiones científicas sobre los diversos ámbitos propios del PLN (análisis morfológico, sintáctico, semántico y pragmático, lexicografía computacional, traducción automática, tecnología del habla, entornos de comunicación persona-máquina en lenguaje natural, gestión documental y lingüística de corpus).

La investigadora onubense ha defendido su tesis ante un tribunal que estuvo compuesto por Jacinto Mata Vázquez, profesor titular del Departamento de Tecnologías de la Información y director de la Escuela Técnica Superior de Ingeniería de la Universidad de Huelva; Manuel de Buenaga Rodríguez, catedrático de Lenguajes y Sistemas Informáticos de la Universidad Europea de Madrid; y Mariana Lara Neves, investigadora postdoctoral en la Universidad de Berlín. Este trabajo obtuvo, además de una mención internacional, la calificación de sobresaliente cum laude.

La monografía de esta investigación de la doctora Noa Cruz se encuentra disponible en la web de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) http://www.sepln.org/wp-content/uploads/2014/09/NEGATION-AND-SPECULATION-Q9.pdf

 

 

 

 

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *