Thesis:
Selección de características: una propuesta de NSGA-II con nuevos operadores

Loading...
Thumbnail Image

Date

2026-01-12

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

This thesis addresses the feature selection problem as a multi-objective optimization task motivated by the increasing number of features in datasets used in modern machine learning applications. The goal is to identify a reduced subset of features that optimizes the classification accuracy. To this end, an adaptation of the evolutionary algorithm NSGA-II is proposed, integrating filter-based feature selection methods, specifically the chi-square statistical test, incorporated into the initialization, mutation, and a dimensionality reduction process. The proposed approach was evaluated using twenty datasets from different domains, with dimensionalities ranging from 16 to 12,600 features, analyzing the impact of different initial feature selection rates. The results show that the proposed strategies outperform the baseline method on the majority of the evaluated datasets in terms of hypervolume, particularly when using 10% of initial features, while maintaining computational times comparable to the base version of NSGA-II and achieving competitive results with respect to state-of-the-art approaches, thereby confirming the effectiveness of the proposed adaptation in high-dimensional scenarios.


Este trabajo de tesis aborda el problema de selección de características como una tarea de optimización multiobjetivo, motivada por el aumento en la dimensionalidad de los conjuntos de datos utilizados en aplicaciones modernas de aprendizaje automático. El objetivo es identificar subconjuntos reducidos de características que mejoren el desempeño en clasificación. Para ello, se propone una adaptación del algoritmo evolutivo NSGA-II que integra métodos de selección de características basados en filtros, específicamente la prueba estadística de chi-cuadrado, incorporada en la inicialización, la mutación y a través de un proceso de reducción de dimensionalidad. La propuesta fue evaluada utilizando veinte conjuntos de datos de distintas áreas, con un rango de entre 16 y 12,600 características, analizando el impacto de distintos escenarios de proporciones iniciales de características. Los resultados muestran que las estrategias propuestas superan al método base en la mayoría de los conjuntos evaluados en términos de hipervolumen, particularmente al utilizar un 10% de características iniciales, manteniendo tiempos de cómputo comparables a la versión base de NSGA-II y obteniendo resultados competitivos frente a enfoques del estado del arte, lo que confirma la efectividad de la adaptación propuesta en escenarios de alta dimensionalidad.

Description

Keywords

Selección de características, NSGA-II, Chi-cuadrado, Optimización multi-objetivo, Algoritmos evolutivos.

Citation