Thesis:
Una arquitectura basada en atención para clasificación jerárquica con redes neuronales convolucionales

datacite.subject.fosNatural sciences::Computer and information sciences
dc.contributor.correferenteAstudillo Rojas, Hernan
dc.contributor.departmentDepartamento de Informática
dc.contributor.guiaÑanculef Alegria, Juan Ricardo
dc.contributor.guiaValle Vidal, Carlos (Pontificia Universidad Católica de Valparaíso)
dc.coverage.spatialCampus Casa Central Valparaíso
dc.creatorPizarro Quezada, Iván Andrés
dc.date.accessioned2025-09-09T14:20:38Z
dc.date.available2025-09-09T14:20:38Z
dc.date.issued2023-07-22
dc.description.abstractEste estudio, trata con problemas de clasificación donde las etiquetas forman una jerarquía, de conceptos más generales a categorías más específicas. Para abordar este problema, se ha vuelto popular el uso de Redes Neuronales Convolucionales (CNN) que utilizan ramas especializadas por cada nivel de la jerarquía. Tanto para tareas del área de Visión Computacional como en otras. Sin embargo, la consistencia de la clasificación sigue siendo un problema: las clases predichas en diferentes niveles a menudo no respetan las restricciones de clase-subclase codificadas por la jerarquía. Han surgido en la literatura distintos patrones de conectividad entre ramas para tratar con esta limitación. Nosotros proponemos un enfoque más simple y flexible: dejar que la red neuronal decida como se deben conectar dichas ramas. Lo anterior se logró formulando un mecanismo atencional que determina dinámicamente como las ramas se influencian entre ellas durante el entrenamiento e inferencia. La hipótesis asociada, es que la introducción de un mecanismo atencional para combinar representaciones intermedias extraídas de distintas profundidades de una red convolucional, permitirá mejorar el desempeño del modelo en problemas de clasi- ficación jerárquica con respecto a modelos presentes en el estado del arte. Los experimentos realizados con datasets ampliamente utilizados para clasifi- cación de imágenes, demostraron que el modelo propuesto puede superar el estado del arte en términos de métricas de rendimiento jerárquicas y consistencia. Además, pese a que lo anterior genera en algunos casos un rendimiento ligeramente inferior en el nivel más profundo de la jerarquía, el modelo predice con mucha más precisión la relación entre un concepto y sus ancestros. Este resultado sugiere que el mod- elo no solo aprende las pertenencias a clases locales, sino también las dependencias jerárquicas entre conceptos, lo que confirma la hipótesis estudiada.es
dc.description.abstractThis study deals with classification problems in which the class labels form a hier- archy, from broad concepts to more specific categories. Convolutional Neural Nets (CNNs) that use a specialized branch per hierarchy level have become a popular approach for this task in computer vision and other areas. However, inter-level clas- sification consistency is still a problem: the classes predicted at different levels often do not respect the class-subclass constraints encoded by the hierarchy. Different communication patterns between branches have arisen in the literature to overcome this limitation. This work presents a simpler and more flexible ap- proach: let the neural net decide how branches must be connected. We achieve this by formulating an attention mechanism that dynamically determines how branches influence each other during training and inference. The hypothesis underlying this research is that adding an attention mechanism to combine intermediate representations extracted from different depths of a con- volutional neural network would improve the model's performance in hierarchical classification problems. Experiments on image classification benchmarks show that the proposed method can outperform state-of-the-art models in terms of hierarchical performance metrics and consistency. Furthermore, although sometimes we found a slightly lower perfor- mance at the deeper level of the hierarchy, the model predicts much more accurately the ground-truth path between a concept and its ancestors in the hierarchy. This result suggests that the model does learn not only local class memberships but also hierarchical dependencies between concepts, confirming the associated hypothesis.en_US
dc.description.degreeMagíster en Ciencias de la Ingeniería Informática
dc.driverinfo:eu-repo/semantics/masterThesis
dc.format.extent82 páginas
dc.identifier.barcode173543425UTFSM
dc.identifier.doi10.71959/54m4-4z11
dc.identifier.urihttps://cris.usm.cl/handle/123456789/4066
dc.identifier.urihttps://doi.org/10.71959/54m4-4z11
dc.language.isoen
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectaprendizaje profundo
dc.subjectclasificación jerárquica
dc.subjectRedes Neuronales Convulucionales
dc.subjectMecanismos de Atención
dc.subject.ods4 Educación de calidad
dc.titleUna arquitectura basada en atención para clasificación jerárquica con redes neuronales convolucionales
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MC_IP_2023.pdf
Size:
12.73 MB
Format:
Adobe Portable Document Format