Thesis:
Aplicación de técnicas de Machine Learning para realizar detección de promotores en múltiples especies

Loading...
Thumbnail Image

Date

2025-01-23

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

En aspectos de la genética, un promotor es una secuencia de ADN que regula y promueve el inicio de la transcripción genética, siendo grandes responsables del control de todos los procesos fisiológicos de una célula. La identificación precisa de los promotores es crucial para comprender la transcripción de ADN, lo que puede llevar a beneficios como el incremento en la producción de fármacos en microorganismos y la mejora de las propiedades de los cultivos agrícolas. A pesar de su importancia, los promotores carecen de patrones de secuencia de ADN claramente conservados entre diferentes tipos de promotores, así como entre especies, lo que complica su caracterización. En la última década, la disponibilidad pública de datos de promotores de diversas especies ha fomentado el desarrollo de modelos de Machine Learning para abordar esta tarea. La detección de promotores utilizando métodos de Machine Learning implica múltiples desafíos. Los datos genéticos disponibles a menudo son insuficientes, lo que limita la disponibilidad de modelos efectivos en términos del rango de especies que pueden abarcar. Además, un problema significativo es la falta de consenso sobre la definición de \textit{clase negativa} en el contexto de clasificación binaria, es decir, qué secuencias de ADN se deben considerar como no promotores. Este problema no solo complica la creación de conjuntos de datos representativos, sino que también afecta la capacidad de los modelos para generalizar en diferentes contextos genómicos. En este trabajo, se propone un enfoque basado en técnicas de Machine Learning para la detección de promotores, abordando el problema como una tarea de clasificación binaria en múltiples especies. Para ello, se construyen dos conjuntos de datos: uno basado en secuencias codificantes y otro en secuencias generadas sintéticamente, utilizadas como clases negativas. Además, se considera el contenido de GC como una variable de interés clave, ya que podría introducir sesgos que afecten el rendimiento de los modelos. El enfoque propuesto incluye la evaluación de modelos utilizando métricas estándar para clasificadores binarios y se comparan con métodos convencionales. También se analizan diversos escenarios representando especies con distribuciones variables de contenido de GC para evaluar el impacto del origen de las secuencias no promotoras en los resultados. Finalmente, se examina la capacidad de los modelos desarrollados para adaptarse a datos genómicos reales, y se proponen recomendaciones para mitigar los posibles sesgos derivados del contenido de GC, mejorando la generalización de los modelos en contextos biológicos complejos. Este trabajo establece una base para futuras investigaciones en la predicción de promotores y el diseño de herramientas automatizadas en genómica.


Promoters, essential DNA sequences that regulate gene transcription, play a critical role in controlling cellular physiological processes. Accurate promoter identification is vital for understanding transcription mechanisms, with applications such as improving microbial drug production and enhancing crop traits. Despite their importance, promoters lack conserved sequence patterns across types and species, complicating their characterization. Recent advances in publicly available promoter datasets have driven the development of Machine Learning models to address these challenges. This study proposes a Machine Learning-based framework for binary classification of promoters across multiple species. Two datasets are constructed: coding sequences and synthetically generated sequences, used as the negative class. GC content, a key variable due to its potential to introduce biases, is analyzed to assess its influence on model performance. The framework evaluates models using standard binary classification metrics, comparing their effectiveness across diverse GC content distributions. Scenarios involving species with varying genomic characteristics are analyzed to evaluate the impact of the negative sequence origin. The models’ adaptability to real genomic data is also examined, with recommendations proposed to mitigate GC-related biases and improve generalization. This work provides a foundation for future research on promoter prediction and the development of automated genomic tools, enabling more accurate and scalable applications in genomic analysis.

Description

Keywords

Deep learning, Machine learning, Bacterial promoters, BERT, Natural language processing, Convolutional neural networks, CNN, Binary classification, GC content, Bioinformatics, Promoter prediction

Citation