Thesis: New Developments in the Estimation of Statistical Models for Complex Longitudinal and Repeated Data
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Los avances en los métodos de recolección de datos y la automatización de procesos han generado grandes volúmenes de información, cuya utilidad depende de un modelamiento adecuado. Esta tesis desarrolla nuevas metodologías para estimar modelos estadísticos complejos con datos longitudinales de conteo y proporción, considerando sobre-dispersión, inflación en ceros y autocorrelación temporal. Se estudian los modelos Zero Inflated Beta Regression (ZIBR) y Zero Inflated Beta-Binomial Mixed Regression (ZIBBMR), útiles para analizar la abundancia y presencia de taxones bacterianos en microbiota humana. Estos modelos mixtos, jerárquicos, se estiman mediante aproximaciones de verosimilitud observada, proponiéndose un método innovador basado en una variante estocástica del algoritmo EM y herramientas de inferencia estadística para evaluar covariables. Su efectividad se valida con datos simulados y reales. Posteriormente, los métodos se aplican a datos de los estudios COBRA-ENV y MODUL-CF (Francia), identificando diferencias microbianas entre personas con y sin asma, y construyendo redes de inferencia entre especies. También se identifican variables asociadas a la evolución clínica en fibrosis quística. Finalmente, se discuten extensiones a modelos análogos y el potencial del modelamiento conjunto de datos longitudinales y de tiempo al evento.
Advances in data collection methods and process automation have generated large volumes of information, the usefulness of which depends on adequate modeling. This thesis develops new methodologies to estimate complex statistical models with longitudinal count and proportion data, considering overdispersion, zero inflation, and temporal autocorrelation. The Zero Inflated Beta Regression (ZIBR) and Zero Inflated Beta-Binomial Mixed Regression (ZIBBMR) models are studied, useful for analyzing the abundance and presence of bacterial taxa in the human microbiota. These hierarchical mixed models are estimated using observed likelihood approximations, and an innovative method is proposed based on a stochastic variant of the EM algorithm and statistical inference tools to evaluate covariates. Its effectiveness is validated with simulated and real data. Subsequently, the methods are applied to data from the COBRA-ENV and MODUL-CF (France) studies, identifying microbial differences between people with and without asthma, and constructing cross-species inference networks. Variables associated with clinical outcome in cystic fibrosis are also identified. Finally, extensions to analogous models and the potential for joint modeling of longitudinal and time-to-event data are discussed.
