Thesis:
Advanced trans-domain knowledge transfer through transformer-based distillation: a novel framework for image-LiDAR integration in autonomous systems

Loading...
Thumbnail Image

Date

2025-03-11

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

Recent advances in deep learning have significantly improved the performance of image classification models, yet adapting these models to fundamentally different data types—such as point clouds from Light Detection and Ranging (LiDAR) sensors—remains a challenging task. This thesis addresses that challenge by exploring trans-domain knowledge distillation: transferring capabilities learned from well-established image classification networks to LiDAR point cloud classification. Building on insights gained from earlier research on partial discharge (PD) signal generation using Deep Convolutional Generative Adversarial Networks (DCGANs), our approach leverages adversarial learning principles to preserve domain-specific features during knowledge transfer. Central to this work is a transformer-based distillation framework that aligns the rich feature representations of teacher models (trained on image datasets) with the unique spatial and structural characteristics of LiDAR point clouds. This transformer architecture employs multi-head attention mechanisms to maintain both global structure and local detail—an insight originally derived from our GAN-based PD signal synthesis, where temporal and spectral fidelity proved essential for realistic data generation. Through rigorous experimental validation on benchmark datasets, our distilled models achieve an F1-score of 90.4. Beyond immediate performance gains, this research underscores the versatility of knowledge distillation techniques for trans-domain adaptation. It illustrates how established models trained on high-fidelity image data can enhance the interpretative power of LiDAR-based classifiers, significantly reducing the reliance on large-scale annotated point cloud datasets. Additionally, the thesis explores the impact of optimizing distillation parameters—such as temperature and weighting factors—and highlights the potential of self-supervised learning for scenarios where annotated teacher data are scarce. The proposed methodology has broad applicability, potentially extending beyond the fusion of image and LiDAR domains to other fields characterized by data disparities in availability, frequency, and richness. Ultimately, this work lays the groundwork for more robust, efficient, and cost-effective perception systems that can accelerate the deployment of intelligent, real-time applications such as autonomous driving and beyond.


Los recientes avances en aprendizaje profundo han mejorado significativamente el rendimiento de los modelos de clasificación de imágenes. Sin embargo, adaptar estos modelos a tipos de datos fundamentalmente diferentes, como las nubes de puntos de los sensores de Detección y Medición de Distancia por Luz (LiDAR), sigue siendo una tarea compleja. Esta tesis aborda este desafío explorando la destilación de conocimiento transdominio: la transferencia de las capacidades aprendidas de redes de clasificación de imágenes consolidadas a la clasificación de nubes de puntos LiDAR. Basándonos en los conocimientos adquiridos en investigaciones previas sobre la generación de señales de descargas parciales (PD) mediante Redes Generativas Antagónicas Convolucionales Profundas (DCGAN), nuestro enfoque aprovecha los principios del aprendizaje antagónico para preservar las características específicas del dominio durante la transferencia de conocimiento. Un elemento central de este trabajo es un marco de destilación basado en transformadores que alinea las ricas representaciones de características de los modelos maestros (entrenados con conjuntos de datos de imágenes) con las características espaciales y estructurales únicas de las nubes de puntos LiDAR. Esta arquitectura de transformadores emplea mecanismos de atención multicabezal para mantener tanto la estructura global como el detalle local, una perspectiva derivada originalmente de nuestra síntesis de señales PD basada en GAN, donde la fidelidad temporal y espectral resultó esencial para la generación de datos realistas. Mediante una rigurosa validación experimental con conjuntos de datos de referencia, nuestros modelos destilados alcanzan una puntuación F1 de 90,4. Más allá de las mejoras inmediatas en el rendimiento, esta investigación subraya la versatilidad de las técnicas de destilación de conocimiento para la adaptación transdominio. Ilustra cómo los modelos consolidados entrenados con datos de imagen de alta fidelidad pueden mejorar la capacidad interpretativa de los clasificadores basados ​​en LiDAR, reduciendo significativamente la dependencia de conjuntos de datos de nubes de puntos anotados a gran escala. Además, la tesis explora el impacto de la optimización de los parámetros de destilación, como la temperatura y los factores de ponderación, y destaca el potencial del aprendizaje autosupervisado para escenarios donde los datos anotados de docentes son escasos. La metodología propuesta tiene una amplia aplicabilidad, que podría extenderse más allá de la fusión de los dominios de imagen y LiDAR a otros campos caracterizados por disparidades en la disponibilidad, frecuencia y riqueza de datos. En definitiva, este trabajo sienta las bases para sistemas de percepción más robustos, eficientes y rentables que pueden acelerar el despliegue de aplicaciones inteligentes en tiempo real, como la conducción autónoma y otras.

Description

Keywords

Knowledge Distillation, Trans-Domain Classification, Point Cloud Classification, LIDAR Data Processing, Deep Learning, Model Compression, Sensor Fusion, Efficient Machine Learning, Autonomous Systems, Cross-Domain Machine Learning

Citation