Thesis:
Feature-Fusion Neck Model for Content-Based Histopathological Image Retrieval

Loading...
Thumbnail Image

Date

2024-07-24

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

Los descriptores de características en imágenes histopatológicas representan un desafío significativo para la implementación de sistemas de recuperación de imágenes basados en contenido (CBIR, por sus siglas en inglés), los cuales son herramientas esenciales para asistir a los patólogos. Esta complejidad surge debido a la diversidad de tipos de tejidos y a la alta dimensionalidad de las imágenes de diapositivas completas (WSIs). Modelos de aprendizaje profundo como las Redes Neuronales Convolucionales (CNNs) y los Vision Transformers han mejorado la extracción de estos descriptores de características. Estos modelos suelen generar embeddings aprovechando capas lineales más profundas de una sola escala o capas de agrupamiento avanzadas. Sin embargo, los embeddings que se centran en detalles espaciales locales a una sola escala tienden a perder el contexto espacial más rico disponible en capas anteriores. Esta limitación resalta la necesidad de métodos que incorporen información de múltiples escalas para mejorar la profundidad y utilidad de los descriptores de características en el análisis de imágenes histopatológicas. En este trabajo, proponemos el modelo Local-Global Feature Fusion Embedding, un enfoque que consiste en una red base preentrenada para la extracción de características a múltiples escalas, una rama intermedia para la fusión de características locales y globales, y una cabeza de agrupamiento basada en Generalized Mean (GeM) para generar descriptores de características robustos. Nuestros experimentos consistieron en entrenar la rama intermedia y la cabeza del modelo en los conjuntos de datos ImageNet-1k y PanNuke utilizando la función de pérdida Sub-center ArcFace. El rendimiento se evaluó en el conjunto de datos Kimia Path24C para la recuperación de imágenes histopatológicas. El modelo propuesto alcanzó un Recall@1 del 99.40% en los parches de prueba, superando a los métodos más avanzados del estado del arte.


Feature descriptors in histopathological images pose a significant challenge for the implementation of Content-Based Image Retrieval (CBIR) systems, which are essential tools for assisting pathologists. This complexity arises from the diverse types of tissues and the high dimensionality of Whole Slide Images (WSIs). Deep learning models such as Convolutional Neural Networks (CNNs) and Vision Transformers have improved the extraction of these feature descriptors. These models typically generate embeddings by leveraging deeper single-scale linear layers or advanced pooling layers. However, embeddings that focus on local spatial details at a single scale tend to miss the richer spatial context available in earlier layers. This limitation highlights the need for methods that incorporate multi-scale information to enhance the depth and utility of feature descriptors in histopathological image analysis. In this work, we propose the Local-Global Feature Fusion Embedding Model, an approach that consists of a pre-trained backbone for multi-scale feature extraction, a neck branch for local-global feature fusion, and a Generalized Mean (GeM)-based pooling head for generating robust feature descriptors. Our experiments involved training the model’s neck and head on the ImageNet-1k and PanNuke datasets using the Sub-center ArcFace loss function. Performance was evaluated on the Kimia Path24C dataset for histopathological image retrieval. The proposed model achieved a Recall@1 of 99.40% on test patches, outperforming state-of-the-art methods.

Description

Keywords

Transfer Learning, Feature Embedding, Feature Fusion, Content-Based Image Retrieval, Histopathological Image, Object Detection, Instance Segmentation, Feature Fusion, Context Feature

Citation