Thesis: Una arquitectura basada en atención para clasificación jerárquica con redes neuronales convolucionales
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Este estudio, trata con problemas de clasificación donde las etiquetas forman una jerarquía, de conceptos más generales a categorías más específicas. Para abordar este problema, se ha vuelto popular el uso de Redes Neuronales Convolucionales (CNN) que utilizan ramas especializadas por cada nivel de la jerarquía. Tanto para tareas del área de Visión Computacional como en otras. Sin embargo, la consistencia de la clasificación sigue siendo un problema: las clases predichas en diferentes niveles a menudo no respetan las restricciones de clase-subclase codificadas por la jerarquía. Han surgido en la literatura distintos patrones de conectividad entre ramas para tratar con esta limitación. Nosotros proponemos un enfoque más simple y flexible: dejar que la red neuronal decida como se deben conectar dichas ramas. Lo anterior se logró formulando un mecanismo atencional que determina dinámicamente como las ramas se influencian entre ellas durante el entrenamiento e inferencia. La hipótesis asociada, es que la introducción de un mecanismo atencional para combinar representaciones intermedias extraídas de distintas profundidades de una red convolucional, permitirá mejorar el desempeño del modelo en problemas de clasi- ficación jerárquica con respecto a modelos presentes en el estado del arte. Los experimentos realizados con datasets ampliamente utilizados para clasifi- cación de imágenes, demostraron que el modelo propuesto puede superar el estado del arte en términos de métricas de rendimiento jerárquicas y consistencia. Además, pese a que lo anterior genera en algunos casos un rendimiento ligeramente inferior en el nivel más profundo de la jerarquía, el modelo predice con mucha más precisión la relación entre un concepto y sus ancestros. Este resultado sugiere que el mod- elo no solo aprende las pertenencias a clases locales, sino también las dependencias jerárquicas entre conceptos, lo que confirma la hipótesis estudiada.
This study deals with classification problems in which the class labels form a hier- archy, from broad concepts to more specific categories. Convolutional Neural Nets (CNNs) that use a specialized branch per hierarchy level have become a popular approach for this task in computer vision and other areas. However, inter-level clas- sification consistency is still a problem: the classes predicted at different levels often do not respect the class-subclass constraints encoded by the hierarchy. Different communication patterns between branches have arisen in the literature to overcome this limitation. This work presents a simpler and more flexible ap- proach: let the neural net decide how branches must be connected. We achieve this by formulating an attention mechanism that dynamically determines how branches influence each other during training and inference. The hypothesis underlying this research is that adding an attention mechanism to combine intermediate representations extracted from different depths of a con- volutional neural network would improve the model's performance in hierarchical classification problems. Experiments on image classification benchmarks show that the proposed method can outperform state-of-the-art models in terms of hierarchical performance metrics and consistency. Furthermore, although sometimes we found a slightly lower perfor- mance at the deeper level of the hierarchy, the model predicts much more accurately the ground-truth path between a concept and its ancestors in the hierarchy. This result suggests that the model does learn not only local class memberships but also hierarchical dependencies between concepts, confirming the associated hypothesis.
