Thesis:
Exploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT

datacite.subject.fosEngineering and technology
dc.contributor.correferenteZuñiga Barraza, Marcos David
dc.contributor.departmentDepartamento de Electrónica
dc.contributor.guiaCarvajal Barrera, Gonzalo Andres
dc.coverage.spatialCampus Casa Central Valparaíso
dc.creatorAguilera Castillo, Juan
dc.date.accessioned2025-09-16T14:58:46Z
dc.date.available2025-09-16T14:58:46Z
dc.date.issued2025-06-06
dc.description.abstractLas redes de deep learning han alcanzado un éxito considerable en tareas complejas, como el reconocimiento de patrones y la clasificación de datos. Sin embargo, realizar inferencias con estas redes demanda muchos recursos computacionales debido al número de operaciones y los requisitos de memoria, lo cual limita su efectividad en aplicaciones con garantías estrictas de rendimiento en términos de latencia y throughput, como en la robótica y las tecnologías de conducción asistida. El procesamiento necesario para inferencias con deep learning muestra un alto grado de paralelismo en sus operaciones subyacentes, lo que puede ser aprovechado con las Unidades de Procesamiento Gráfico (GPUs) modernas. Sin embargo, mapear redes descritas en frameworks de alto nivel —que priorizan la productividad sobre el rendimiento— en GPUs es una tarea compleja. Para abordar este desafío, Nvidia introdujo TensorRT, una herramienta de software diseñada para optimizar algoritmos de redes neuronales en GPUs, mejorando el rendimiento en la inferencia mediante el uso eficiente de la computación paralela. Los detalles internos de TensorRT son propietarios y cerrados, por lo que solo es posible evaluar su efectividad a través de estudios empíricos. Aunque estos estudios sugieren que TensorRT mejora el rendimiento de la inferencia en tareas como la clasificación de imágenes, la efectividad depende en gran medida de la configuración de la herramienta para el hardware objetivo. Los estudios recientes evalúan TensorRT utilizando varios modelos de redes neuronales profundas (DNN), configuraciones de hardware/software y métricas de rendimiento, pero suelen carecer de detalles concretos sobre configuraciones y códigos fuente, lo que limita la validación y extensión de los resultados. Además, la rápida evolución de los algoritmos de aprendizaje automático y de las tecnologías de soporte requiere evaluaciones periódicas para asegurar la validez de los hallazgos y derivar pautas para nuevos modelos y aplicaciones. En esta tesis, se realiza una exploración experimental sistemática de las capacidades de optimización de TensorRT para tareas de inferencia, utilizando modelos de redes neuronales profundas ejecutados en GPUs de diversos rangos, con un enfoque en la familia Jetson de plataformas embebidas de Nvidia. Este estudio aborda las brechas identificadas en la literatura al ampliar los benchmarks para incluir las plataformas Jetson Orin más recientes e incorporar nuevas configuraciones de herramientas y métricas de evaluación. Al probar múltiples plataformas en un entorno uniforme, se establecieron pautas que luego fueron validadas en una variedad de aplicaciones utilizando modelos de DNN y conjuntos de datos personalizados que difieren de los ejemplos típicos utilizados en los benchmarks. En general, este estudio proporciona datos cuantitativos y verificables sobre las fortalezas y limitaciones de TensorRT en la optimización de inferencias con algoritmos de deep learning en plataformas de última generación. Anticipamos que estos hallazgos ayudarán a los profesionales y usuarios finales a aprovechar eficazmente las tecnologías de última generación para optimizar tareas de inferencia considerando requisitos y restricciones específicos.es
dc.description.abstractDeep learning networks have achieved considerable success in complex tasks such as pattern recognition and data classification. However, performing inference with these networks is computationally demanding due to the number of operations and memory requirements, which limits their effectiveness in applications that require strict performance guarantees in terms of latency and throughput, such as robotics and assisted driving technologies, among others. The processing required to perform inferences with deep learning networks tends to exhibit a high degree of parallelism in the underlying operations, which can be leveraged by modern Graphics Processing Units (GPUs). However, mapping networks described in high-level frameworks—which prioritize productivity and functionality over computational performance—onto GPUs is a complex task. To address this challenge, Nvidia introduced TensorRT, a software tool designed to facilitate the mapping of neural network-based algorithms onto GPUs manufactured by the same company, with the goal of optimizing the utilization of parallel computing resources to improve inference performance. The internal details of TensorRT are proprietary and closed, making it possible to evaluate the tool’s effectiveness only through empirical studies. Although studies suggest that TensorRT is effective in improving inference performance for tasks such as image classification, the optimization’s effectiveness depends heavily on configuring the tool for specific target hardware. Recent studies evaluate TensorRT using various DNN models, datasets, software/hardware configurations, and target metrics. However, existing studies generally lack concrete details about settings and generation scripts, which limits the ability to validate results and extend them to other datasets and applications. Furthermore, the rapid evolution of machine learning algorithms and supporting software/hardware technologies necessitates periodic evaluations to ensure previous findings remain valid and to derive guidelines for extending the techniques to new models and applications with custom datasets and target metrics. In this thesis, we conducted a systematic experimental exploration of TensorRT’s optimization capabilities for inference tasks using DNN models executed on GPUs across various ranges, with a focus on Nvidia’s Jetson family of embedded platforms. Our study addresses gaps identified in the literature by extending benchmarks to include the latest Jetson Orin platforms and incorporating new tool settings and evaluation metrics. By testing multiple platforms under a uniform environment, we established guidelines that were further validated across a range of applications using DNN models and custom datasets that differ from typical benchmarking examples. Overall, this study provides quantitative and verifiable insights into TensorRT’s strengths and limitations in optimizing deep learning inference on next-generation platforms. We anticipate that our findings will assist practitioners and end-users in effectively leveraging state-of-the-art technologies to optimize inference tasks while considering specific requirements and constraints.en_US
dc.description.degreeMagíster en Ciencias de la Ingeniería Electrónica
dc.description.sponsorshipUNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA
dc.driverinfo:eu-repo/semantics/masterThesis
dc.format.extent107 páginas
dc.identifier.doi10.71959/4m4w-m312
dc.identifier.urihttps://cris.usm.cl/handle/123456789/4127
dc.identifier.urihttps://doi.org/10.71959/4m4w-m312
dc.language.isoes
dc.publisherUniversidad Técnica Federico Santa María
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectGPU
dc.subjectTensorRT
dc.subjectNvidia
dc.subjectJetson
dc.subjectdeep learning
dc.subjectredes neuronales
dc.subject.ods9 Industria, innovación e infraestructura
dc.titleExploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MC_JA_2025.pdf
Size:
4 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: