Thesis:
Una arquitectura basada en atención para clasificación jerárquica con redes neuronales convolucionales

Simple item page

datacite.subject.fos	Natural sciences::Computer and information sciences
dc.contributor.correferente	Astudillo Rojas, Hernan
dc.contributor.department	Departamento de Informática
dc.contributor.guia	Ñanculef Alegria, Juan Ricardo
dc.contributor.guia	Valle Vidal, Carlos (Pontificia Universidad Católica de Valparaíso)
dc.coverage.spatial	Campus Casa Central Valparaíso
dc.creator	Pizarro Quezada, Iván Andrés
dc.date.accessioned	2025-09-09T14:20:38Z
dc.date.available	2025-09-09T14:20:38Z
dc.date.issued	2023-07-22
dc.description.abstract	Este estudio, trata con problemas de clasificación donde las etiquetas forman una jerarquía, de conceptos más generales a categorías más específicas. Para abordar este problema, se ha vuelto popular el uso de Redes Neuronales Convolucionales (CNN) que utilizan ramas especializadas por cada nivel de la jerarquía. Tanto para tareas del área de Visión Computacional como en otras. Sin embargo, la consistencia de la clasificación sigue siendo un problema: las clases predichas en diferentes niveles a menudo no respetan las restricciones de clase-subclase codificadas por la jerarquía. Han surgido en la literatura distintos patrones de conectividad entre ramas para tratar con esta limitación. Nosotros proponemos un enfoque más simple y flexible: dejar que la red neuronal decida como se deben conectar dichas ramas. Lo anterior se logró formulando un mecanismo atencional que determina dinámicamente como las ramas se influencian entre ellas durante el entrenamiento e inferencia. La hipótesis asociada, es que la introducción de un mecanismo atencional para combinar representaciones intermedias extraídas de distintas profundidades de una red convolucional, permitirá mejorar el desempeño del modelo en problemas de clasi- ficación jerárquica con respecto a modelos presentes en el estado del arte. Los experimentos realizados con datasets ampliamente utilizados para clasifi- cación de imágenes, demostraron que el modelo propuesto puede superar el estado del arte en términos de métricas de rendimiento jerárquicas y consistencia. Además, pese a que lo anterior genera en algunos casos un rendimiento ligeramente inferior en el nivel más profundo de la jerarquía, el modelo predice con mucha más precisión la relación entre un concepto y sus ancestros. Este resultado sugiere que el mod- elo no solo aprende las pertenencias a clases locales, sino también las dependencias jerárquicas entre conceptos, lo que confirma la hipótesis estudiada.	es
dc.description.abstract	This study deals with classification problems in which the class labels form a hier- archy, from broad concepts to more specific categories. Convolutional Neural Nets (CNNs) that use a specialized branch per hierarchy level have become a popular approach for this task in computer vision and other areas. However, inter-level clas- sification consistency is still a problem: the classes predicted at different levels often do not respect the class-subclass constraints encoded by the hierarchy. Different communication patterns between branches have arisen in the literature to overcome this limitation. This work presents a simpler and more flexible ap- proach: let the neural net decide how branches must be connected. We achieve this by formulating an attention mechanism that dynamically determines how branches influence each other during training and inference. The hypothesis underlying this research is that adding an attention mechanism to combine intermediate representations extracted from different depths of a con- volutional neural network would improve the model's performance in hierarchical classification problems. Experiments on image classification benchmarks show that the proposed method can outperform state-of-the-art models in terms of hierarchical performance metrics and consistency. Furthermore, although sometimes we found a slightly lower perfor- mance at the deeper level of the hierarchy, the model predicts much more accurately the ground-truth path between a concept and its ancestors in the hierarchy. This result suggests that the model does learn not only local class memberships but also hierarchical dependencies between concepts, confirming the associated hypothesis.	en_US
dc.description.degree	Magíster en Ciencias de la Ingeniería Informática
dc.driver	info:eu-repo/semantics/masterThesis
dc.format.extent	82 páginas
dc.identifier.barcode	173543425UTFSM
dc.identifier.doi	10.71959/54m4-4z11
dc.identifier.uri	https://cris.usm.cl/handle/123456789/4066
dc.identifier.uri	https://doi.org/10.71959/54m4-4z11
dc.language.iso	en
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	aprendizaje profundo
dc.subject	clasificación jerárquica
dc.subject	Redes Neuronales Convulucionales
dc.subject	Mecanismos de Atención
dc.subject.ods	4 Educación de calidad
dc.title	Una arquitectura basada en atención para clasificación jerárquica con redes neuronales convolucionales
dspace.entity.type	Tesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: MC_IP_2023.pdf
Size:: 12.73 MB
Format:: Adobe Portable Document Format

Collections

Tesis de Postgrado