Thesis: Algoritmo multi-fuente de imputación de datos faltantes basado en algoritmo EM y vecinos recomendados
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
En los problemas de Machine Learning, la presencia de datos faltantes es un desafío común, especialmente cuando las variables del estudio provienen de múltiples fuentes de información. Cada fuente puede tener distintos formatos, niveles de precisión y frecuencias de actualización, lo que genera inconsistencias y vacíos en los datos recopilados. Por ejemplo, en un sistema de predicción de demanda que depende de datos meteorológicos, económicos y de redes sociales, algunas fuentes pueden proporcionar información en tiempo real, mientras que otras pueden presentar retrasos en las actualizaciones o contener valores faltantes debido a errores de registro. Estas discrepancias pueden afectar la calidad del modelo, reduciendo su capacidad predictiva y aumentando la incertidumbre en los resultados. Por lo tanto, es fundamental aplicar estrategias como la imputación de datos si se desea realizar una tarea de aprendizaje supervisado, como regresión o clasificación, sin perder datos en el proceso. El algoritmo de Expectation Maximization (EM) ha sido utilizado con éxito para manejar valores faltantes, pero no está diseñado para escenarios típicos de Machine Learning, donde se crea un modelo de imputación sobre los datos de entrenamiento y luego se aplica a un conjunto de prueba. En este trabajo, proponemos EMreg-KNN, un novedoso algoritmo de imputación supervisado y de múltiples fuentes. Basado en el algoritmo EM y en el concepto de vecinos recomendados, EMreg-KNN construye un modelo de conjunto basado en regresión para la imputación de datos futuros, lo que permite la utilización posterior de cualquier método de Machine Learning basado en vectores para evaluar automáticamente tareas de clasificación. Para evaluar esta propuesta, se utilizan tres bases de datos diferentes con datos faltantes y cuatro algoritmos de clasificación. El método propuesto competirá con otros métodos de imputación para garantizar que los algoritmos de clasificación ofrezcan los mejores resultados según métricas ROC. EMreg-KNN obtiene mejores resultados en la mayoría de los escenarios. Además, los clasificadores muestran un comportamiento más estable gracias a la imputación de los valores faltantes.
In machine learning problems, the presence of missing data is a common challenge particularly when the study variables originate from multiple sources of information since each source may have different formats, levels of accuracy and update frequencies, leading to inconsistencies and gaps in the collected data, for instance, in a demand prediction system that relies on meteorological, economic and social media data, some sources may provide real-time information while others may experience delays in updates or contain missing values due to recording errors, these discrepancies can affect the quality of the model reducing its predictive capability and increasing uncertainty in the results, therefore it is essential to apply strategies such as data imputation if we want to perform a supervised learning task such as regression or classification without losing data in the process, the Expectation Maximization (EM) algorithm has been successfully employed to handle missing values but it is not designed for typical machine learning scenarios where an imputation model is created over training data and subsequently applied on a testing set, in this work we propose EMreg-KNN, a novel supervised and multi-source imputation algorithm, based on the EM algorithm and the concept of recommended neighbors, EMreg-KNN builds a regression ensemble model for the imputation of future data thus allowing the further utilization of any vector based machine learning method to automatically assess classification tasks, in order to evaluate this proposal three different databases with missing data and four classification algorithms are employed, the proposed method will compete with other imputation methods to ensure that the classification algorithms provide the best results based on ROC metrics, EMreg-KNN achieves better results in most scenarios and additionally the classifiers exhibit more stable behavior thanks to the imputation of missing values.