Thesis:
Aplicación de técnicas de Machine Learning para realizar detección de promotores en múltiples especies

datacite.subject.fosNatural sciences::Computer and information sciences::Bioinformatics
datacite.subject.fosEngineering and technology::Electrical engineering, Electronic engineering, Information engineering
dc.contributor.departmentDepartamento de Electrónica
dc.contributor.guiaJara Carvallo, Nicolas Alonso
dc.coverage.spatialCampus Casa Central Valparaíso
dc.creatorGonzález Henríquez, Marcelo Iván
dc.date.accessioned2025-09-16T14:22:11Z
dc.date.available2025-09-16T14:22:11Z
dc.date.issued2025-01-23
dc.description.abstractEn aspectos de la genética, un promotor es una secuencia de ADN que regula y promueve el inicio de la transcripción genética, siendo grandes responsables del control de todos los procesos fisiológicos de una célula. La identificación precisa de los promotores es crucial para comprender la transcripción de ADN, lo que puede llevar a beneficios como el incremento en la producción de fármacos en microorganismos y la mejora de las propiedades de los cultivos agrícolas. A pesar de su importancia, los promotores carecen de patrones de secuencia de ADN claramente conservados entre diferentes tipos de promotores, así como entre especies, lo que complica su caracterización. En la última década, la disponibilidad pública de datos de promotores de diversas especies ha fomentado el desarrollo de modelos de Machine Learning para abordar esta tarea. La detección de promotores utilizando métodos de Machine Learning implica múltiples desafíos. Los datos genéticos disponibles a menudo son insuficientes, lo que limita la disponibilidad de modelos efectivos en términos del rango de especies que pueden abarcar. Además, un problema significativo es la falta de consenso sobre la definición de \textit{clase negativa} en el contexto de clasificación binaria, es decir, qué secuencias de ADN se deben considerar como no promotores. Este problema no solo complica la creación de conjuntos de datos representativos, sino que también afecta la capacidad de los modelos para generalizar en diferentes contextos genómicos. En este trabajo, se propone un enfoque basado en técnicas de Machine Learning para la detección de promotores, abordando el problema como una tarea de clasificación binaria en múltiples especies. Para ello, se construyen dos conjuntos de datos: uno basado en secuencias codificantes y otro en secuencias generadas sintéticamente, utilizadas como clases negativas. Además, se considera el contenido de GC como una variable de interés clave, ya que podría introducir sesgos que afecten el rendimiento de los modelos. El enfoque propuesto incluye la evaluación de modelos utilizando métricas estándar para clasificadores binarios y se comparan con métodos convencionales. También se analizan diversos escenarios representando especies con distribuciones variables de contenido de GC para evaluar el impacto del origen de las secuencias no promotoras en los resultados. Finalmente, se examina la capacidad de los modelos desarrollados para adaptarse a datos genómicos reales, y se proponen recomendaciones para mitigar los posibles sesgos derivados del contenido de GC, mejorando la generalización de los modelos en contextos biológicos complejos. Este trabajo establece una base para futuras investigaciones en la predicción de promotores y el diseño de herramientas automatizadas en genómica.es
dc.description.abstractPromoters, essential DNA sequences that regulate gene transcription, play a critical role in controlling cellular physiological processes. Accurate promoter identification is vital for understanding transcription mechanisms, with applications such as improving microbial drug production and enhancing crop traits. Despite their importance, promoters lack conserved sequence patterns across types and species, complicating their characterization. Recent advances in publicly available promoter datasets have driven the development of Machine Learning models to address these challenges. This study proposes a Machine Learning-based framework for binary classification of promoters across multiple species. Two datasets are constructed: coding sequences and synthetically generated sequences, used as the negative class. GC content, a key variable due to its potential to introduce biases, is analyzed to assess its influence on model performance. The framework evaluates models using standard binary classification metrics, comparing their effectiveness across diverse GC content distributions. Scenarios involving species with varying genomic characteristics are analyzed to evaluate the impact of the negative sequence origin. The models’ adaptability to real genomic data is also examined, with recommendations proposed to mitigate GC-related biases and improve generalization. This work provides a foundation for future research on promoter prediction and the development of automated genomic tools, enabling more accurate and scalable applications in genomic analysis.en_US
dc.description.degreeMagíster en Ciencias de la Ingeniería Electrónica
dc.description.sponsorshipAgencia Nacional de Investigación y Desarrollo (ANID)
dc.description.sponsorshipUNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA
dc.description.sponsorshipCentro Avanzado de Ingeniería Eléctrica y Electrónica - AC3E
dc.driverinfo:eu-repo/semantics/masterThesis
dc.format.extent95 páginas
dc.identifier.doi10.71959/mhjx-fh30
dc.identifier.urihttps://cris.usm.cl/handle/123456789/4126
dc.identifier.urihttps://doi.org/10.71959/mhjx-fh30
dc.language.isoes
dc.publisherUniversidad Técnica Federico Santa María
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectDeep learning
dc.subjectMachine learning
dc.subjectBacterial promoters
dc.subjectBERT
dc.subjectNatural language processing
dc.subjectConvolutional neural networks
dc.subjectCNN
dc.subjectBinary classification
dc.subjectGC content
dc.subjectBioinformatics
dc.subjectPromoter prediction
dc.subject.ods3 Salud y bienestar
dc.subject.ods15 Vida de ecosistemas terrestres
dc.titleAplicación de técnicas de Machine Learning para realizar detección de promotores en múltiples especies
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MC_MG_2025.pdf
Size:
13.1 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: