Thesis:
Clasificación de textos multi-etiquetados con representación dependiente de la etiqueta

Loading...
Thumbnail Image

Date

2021-03

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

The assignment of one or more predefined categories to natural language texts, based on their content, is an important and necessary component in many tasks within organizations. This task is easily carried out through automatic text classification, that is, classifying documents within a set of predefined categories by means of a model and computational methods. The representation of texts for automatic classification purposes has traditionally been carried out using a vector space model due to its simplicity and good performance. On the other hand, the automatic classification of texts by multi-labeling has typically been approached using simple label classification methods, which implies transforming the studied problem to apply binary techniques or adapting binary algorithms to work with multiple labels. In this research the objective is to evaluate a function for the weighting of the words of the texts to modify the representation of the texts in multi-label classification, using a combination of two approaches: problem transformation and model adaptation. This weighting function and the combination of approaches in automatic classification was tested with ten different sets of textual data used in the specialized literature and compared with alternative techniques by means of three evaluation measures. The results show improvements of more than 10% in the performance of the classifiers, attributed to our proposal, in all the cases analyzed.


La asignación de una o más categorías predefinidas a los textos en lenguaje natural, basados en su contenido, es un componente importante y necesario en muchas tareas al interior de las organizaciones, y esta tarea se realiza comúnmente a través de la clasificación automática de textos, esto es, clasificando documentos dentro de un conjunto de categorías predefinidas por medio de un modelo y métodos computacionales; la representación de los textos para propósitos de clasificación automática ha sido tradicionalmente llevada a cabo usando un modelo de espacio vectorial debido a su simplicidad y buen rendimiento, mientras que la clasificación automática de textos por multi-etiquetado ha sido típicamente abordada utilizando métodos de clasificación de etiqueta simple, lo que implica transformar el problema estudiado para aplicar técnicas binarias o adaptar algoritmos binarios para que funcionen con múltiples etiquetas. En esta investigación el objetivo es evaluar una función para la ponderación de las palabras de los textos para modificar la representación de los textos en clasificación multi-etiqueta, usando una combinación de dos enfoques: transformación de problema y adaptación de modelo; esta función de ponderación y la combinación de enfoques en la clasificación automática fue puesta a prueba con diez diferentes conjuntos de datos textuales utilizados en la literatura especializada y comparada con técnicas alternativas por medio de tres medidas de evaluación, y los resultados presentan mejoras superiores al 10% en el rendimiento de los clasificadores, atribuidas a nuestra propuesta, en todos los casos analizados.

Description

Keywords

multietiqueta, clasificacion de textos, representacion de textos, transformacion del problema, ponderacion de terminos

Citation