Thesis:
Exploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT

Simple item page

datacite.subject.fos	Engineering and technology
dc.contributor.correferente	Zuñiga Barraza, Marcos David
dc.contributor.department	Departamento de Electrónica
dc.contributor.guia	Carvajal Barrera, Gonzalo Andres
dc.coverage.spatial	Campus Casa Central Valparaíso
dc.creator	Aguilera Castillo, Juan
dc.date.accessioned	2025-09-16T14:58:46Z
dc.date.available	2025-09-16T14:58:46Z
dc.date.issued	2025-06-06
dc.description.abstract	Las redes de deep learning han alcanzado un éxito considerable en tareas complejas, como el reconocimiento de patrones y la clasificación de datos. Sin embargo, realizar inferencias con estas redes demanda muchos recursos computacionales debido al número de operaciones y los requisitos de memoria, lo cual limita su efectividad en aplicaciones con garantías estrictas de rendimiento en términos de latencia y throughput, como en la robótica y las tecnologías de conducción asistida. El procesamiento necesario para inferencias con deep learning muestra un alto grado de paralelismo en sus operaciones subyacentes, lo que puede ser aprovechado con las Unidades de Procesamiento Gráfico (GPUs) modernas. Sin embargo, mapear redes descritas en frameworks de alto nivel —que priorizan la productividad sobre el rendimiento— en GPUs es una tarea compleja. Para abordar este desafío, Nvidia introdujo TensorRT, una herramienta de software diseñada para optimizar algoritmos de redes neuronales en GPUs, mejorando el rendimiento en la inferencia mediante el uso eficiente de la computación paralela. Los detalles internos de TensorRT son propietarios y cerrados, por lo que solo es posible evaluar su efectividad a través de estudios empíricos. Aunque estos estudios sugieren que TensorRT mejora el rendimiento de la inferencia en tareas como la clasificación de imágenes, la efectividad depende en gran medida de la configuración de la herramienta para el hardware objetivo. Los estudios recientes evalúan TensorRT utilizando varios modelos de redes neuronales profundas (DNN), configuraciones de hardware/software y métricas de rendimiento, pero suelen carecer de detalles concretos sobre configuraciones y códigos fuente, lo que limita la validación y extensión de los resultados. Además, la rápida evolución de los algoritmos de aprendizaje automático y de las tecnologías de soporte requiere evaluaciones periódicas para asegurar la validez de los hallazgos y derivar pautas para nuevos modelos y aplicaciones. En esta tesis, se realiza una exploración experimental sistemática de las capacidades de optimización de TensorRT para tareas de inferencia, utilizando modelos de redes neuronales profundas ejecutados en GPUs de diversos rangos, con un enfoque en la familia Jetson de plataformas embebidas de Nvidia. Este estudio aborda las brechas identificadas en la literatura al ampliar los benchmarks para incluir las plataformas Jetson Orin más recientes e incorporar nuevas configuraciones de herramientas y métricas de evaluación. Al probar múltiples plataformas en un entorno uniforme, se establecieron pautas que luego fueron validadas en una variedad de aplicaciones utilizando modelos de DNN y conjuntos de datos personalizados que difieren de los ejemplos típicos utilizados en los benchmarks. En general, este estudio proporciona datos cuantitativos y verificables sobre las fortalezas y limitaciones de TensorRT en la optimización de inferencias con algoritmos de deep learning en plataformas de última generación. Anticipamos que estos hallazgos ayudarán a los profesionales y usuarios finales a aprovechar eficazmente las tecnologías de última generación para optimizar tareas de inferencia considerando requisitos y restricciones específicos.	es
dc.description.abstract	Deep learning networks have achieved considerable success in complex tasks such as pattern recognition and data classification. However, performing inference with these networks is computationally demanding due to the number of operations and memory requirements, which limits their effectiveness in applications that require strict performance guarantees in terms of latency and throughput, such as robotics and assisted driving technologies, among others. The processing required to perform inferences with deep learning networks tends to exhibit a high degree of parallelism in the underlying operations, which can be leveraged by modern Graphics Processing Units (GPUs). However, mapping networks described in high-level frameworks—which prioritize productivity and functionality over computational performance—onto GPUs is a complex task. To address this challenge, Nvidia introduced TensorRT, a software tool designed to facilitate the mapping of neural network-based algorithms onto GPUs manufactured by the same company, with the goal of optimizing the utilization of parallel computing resources to improve inference performance. The internal details of TensorRT are proprietary and closed, making it possible to evaluate the tool’s effectiveness only through empirical studies. Although studies suggest that TensorRT is effective in improving inference performance for tasks such as image classification, the optimization’s effectiveness depends heavily on configuring the tool for specific target hardware. Recent studies evaluate TensorRT using various DNN models, datasets, software/hardware configurations, and target metrics. However, existing studies generally lack concrete details about settings and generation scripts, which limits the ability to validate results and extend them to other datasets and applications. Furthermore, the rapid evolution of machine learning algorithms and supporting software/hardware technologies necessitates periodic evaluations to ensure previous findings remain valid and to derive guidelines for extending the techniques to new models and applications with custom datasets and target metrics. In this thesis, we conducted a systematic experimental exploration of TensorRT’s optimization capabilities for inference tasks using DNN models executed on GPUs across various ranges, with a focus on Nvidia’s Jetson family of embedded platforms. Our study addresses gaps identified in the literature by extending benchmarks to include the latest Jetson Orin platforms and incorporating new tool settings and evaluation metrics. By testing multiple platforms under a uniform environment, we established guidelines that were further validated across a range of applications using DNN models and custom datasets that differ from typical benchmarking examples. Overall, this study provides quantitative and verifiable insights into TensorRT’s strengths and limitations in optimizing deep learning inference on next-generation platforms. We anticipate that our findings will assist practitioners and end-users in effectively leveraging state-of-the-art technologies to optimize inference tasks while considering specific requirements and constraints.	en_US
dc.description.degree	Magíster en Ciencias de la Ingeniería Electrónica
dc.description.sponsorship	UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA
dc.driver	info:eu-repo/semantics/masterThesis
dc.format.extent	107 páginas
dc.identifier.doi	10.71959/4m4w-m312
dc.identifier.uri	https://cris.usm.cl/handle/123456789/4127
dc.identifier.uri	https://doi.org/10.71959/4m4w-m312
dc.language.iso	es
dc.publisher	Universidad Técnica Federico Santa María
dc.rights	Attribution 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	GPU
dc.subject	TensorRT
dc.subject	Nvidia
dc.subject	Jetson
dc.subject	deep learning
dc.subject	redes neuronales
dc.subject.ods	9 Industria, innovación e infraestructura
dc.title	Exploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT
dspace.entity.type	Tesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: MC_JA_2025.pdf
Size:: 4 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed to upon submission
Description:

Download

Collections

Tesis de Postgrado

Thesis:
Exploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT

Files

Original bundle

License bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis: Exploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT

Files

Original bundle

License bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis:
Exploración de metodologías para la optimización de inferencia de redes neuronales en GPU utilizando TensorRT