Thesis: Predicción del desempeño de pila de combustible de hidrógeno verde en la Región de Antofagasta mediante modelos de Aprendizaje Automático
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El despliegue de tecnologías de hidrógeno verde en la Región de Antofagasta requiere herramientas predictivas que permitan evaluar el desempeño de bancos de pilas de combustible de membrana de intercambio protónico (PEMFC) en un entorno con alta heterogeneidad climática y topográfica. En este contexto, se desarrolla un pipeline de modelado basado en Aprendizaje Automático para predecir con alta precisión y eficiencia la potencia eléctrica de un banco de tres pilas GenSure E-1100 de la planta piloto móvil de hidrógeno verde de CICITEM, desplegada desde la Cordillera de la Costa hasta la Precordillera y la Depresión Intermedia. La base de datos utilizada está compuesta por 1595 registros de variables ambientales (Tamb, pamb, HR) y eléctricas (I, V, W) recopilados en distintos sitios, conformando un conjunto de tamaño acotado, pero altamente heterogéneo y multimodal, con desbalances en los estratos climático-operacionales y una marcada presencia de outliers, lo que exige esquemas de modelado robustos y coherentes con la física del sistema. El flujo de trabajo integra tres componentes principales: (i) ingeniería de características acoplada a ablación incremental para construir una base de datos enriquecida con descriptores climáticos, temporales, operacionales y de reparto de combustible; (ii) una metodología probabilística de detección de outliers por familias de variables (FASEK5), que combina múltiples detectores en un esquema leaky noisy-OR para generar versiones depuradas de la base preservando su representatividad física y operativa; y (iii) la implementación de un pipeline robusto y reproducible para entrenar y comparar modelos de regresión (RandomForestRegressor, XGBoost, CatBoost, MLPRegressor y SupportVectorRegressor) con validación cruzada estratificada y optimización bayesiana de hiperparámetros. La calidad de los modelos se evalúa mediante un conjunto integrado de métricas de ajuste, sesgo y dispersión de residuos (RMSE, r, R2, CCC, MEC, ME, SDE, Std), complementado con diagramas solares y de Taylor, además de métricas de generalización y ganancia relativa asociada a la depuración de la base de datos (GAPRMSE, ΔRMSE, Gainrel). Los resultados muestran que la depuración moderada de outliers (< 5% de contaminación, < 80 registros) incrementa de forma sistemática la capacidad de generalización de todos los modelos, con reducciones de la diferencia entre el RMSE de entrenamiento y de prueba (GAPRMSE) del orden de 4.6–9.0 W y ganancias relativas del RMSE de prueba en torno a 21–31 %, desplazando sus posiciones en los diagramas solar y de Taylor hacia regiones de mayor calidad. Bajo este marco metodológico, la configuración XGB v0.9950 emerge como el modelo con mejor compromiso entre precisión, robustez frente a outliers y capacidad de generalización, alcanzando un RMSE global ≈ 31 W (≈ 11 % de la desviación estándar experimental, σ ≈ 275.6 W), sesgo prácticamente nulo y valores de r ≈ 0.993 y R2 ≈ 0.987, con coeficientes de eficiencia de modelado (MEC) y de concordancia (CCC) del orden de 0.990. El análisis de importancia de características en los modelos basados en árboles indica que el comportamiento del banco está gobernado principalmente por el régimen de activación, la configuración interna y el reparto de combustible entre pilas y, en segundo lugar, por las condiciones ambientales y el contexto temporal, en concordancia con la influencia sobre el desempeño electroquímico predicha por modelos analíticos. Este trabajo de tesis valida que un enfoque de Aprendizaje Automático integrado con ingeniería de características coherente con la física del sistema PEMFC y el contexto operativo local, junto con una etapa de depuración probabilística, constituye una herramienta robusta para predecir el desempeño de bancos PEMFC en campo. En consecuencia, el pipeline propuesto se configura como un marco reproducible extrapolable a otros bancos y contextos climáticos y sienta las bases para futuros trabajos sobre control, optimización e interpretabilidad de sistemas PEMFC bajo condiciones reales de operación.
The deployment of green hydrogen technologies in the Antofagasta Region requires predictive tools that enable the assessment of the performance of proton exchange membrane fuel cells (PEMFC) in an environment with high climatic and topographic heterogeneity. In this context, a Machine Learning based modeling pipeline is developed to predict, with high accuracy and efficiency, the electrical power of a three cells GenSure E-1100 stack belonging to CICITEM’s mobile green-hydrogen pilot plant, deployed from the Cordillera de la Costa to the Precordillera and the Depresión Intermedia. The database used is composed of 1595 records of environmental variables (Tamb, pamb, HR) and electrical variables (I, V, W) collected at different sites, forming a dataset of limited size but highly heterogeneous and multimodal, with imbalances across climatic-operational strata and a marked presence of outliers, which demands robust modeling schemes consistent with the physics of the system. The workflow integrates three main components: (i) feature engineering coupled with incremental ablation to build a database enriched with climatic, temporal, operational, and fuel-distribution descriptors; (ii) a probabilistic outlier-detection methodology by variable families (FASEK5), which combines multiple detectors in a leaky noisy-OR scheme to generate cleaned versions of the database while preserving its physical and operational representativeness; and (iii) the implementation of a robust and reproducible pipeline to train and compare regression models (RandomForestRegressor, XGBoost, CatBoost, MLPRegressor, and SupportVectorRegressor) with stratified cross-validation and Bayesian hyperparameter optimization. Model quality is evaluated using an integrated set of goodness-of-fit, bias, and residual-dispersion metrics (RMSE, r, R2, CCC, MEC, ME, SDE, Std), complemented with solar and Taylor diagrams, as well as generalization metrics and relative gain associated with database cleaning (GAPRMSE, ΔRMSE, Gainrel). The results show that moderate outlier removal (< 5% contamination, < 80 records) systematically increases the generalization capacity of all models, with reductions in the gap between training and test RMSE (GAPRMSE) on the order of 4.6–9.0 W and relative gains in test RMSE of about 21–31 %, shifting their positions in the solar and Taylor diagrams toward higher-quality regions. Within this methodological framework, the XGB v0.9950 configuration emerges as the model with the best compromise between accuracy, robustness to outliers, and generalization capacity, achieving a global RMSE ≈ 31 W (≈ 11 % of the experimental standard deviation, σ ≈ 275.6 W), practically zero bias, and values of r ≈ 0.993 and R2 ≈ 0.987, with modeling efficiency (MEC) and concordance (CCC) coefficients on the order of 0.990. The feature-importance analysis in tree-based models indicates that stack behavior is governed primarily by the activation regime, internal configuration, and fuel distribution among cells and, secondarily, by environmental conditions and temporal context, in agreement with the influence on electrochemical performance predicted by analytical models. This thesis validates that a Machine Learning approach integrated with feature engineering consistent with PEMFC system physics and the local operating context, together with a probabilistic cleaning stage, constitutes a robust tool for predicting the performance of PEMFC stacks in the field. Consequently, the proposed pipeline is configured as a reproducible framework that is extrapolable to other stacks and climatic contexts and lays the groundwork for future work on control, optimization, and interpretability of PEMFC systems under real operating conditions.
