Thesis:
Deep Transfomer Q-learning basado en aprendizaje reforzado para optimización de portafolio en Criptomonedas

Loading...
Thumbnail Image

Date

2025-08-08

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

Optimizing financial asset predictions for portfolio performance is a well-researched area in finance. Advances in computing and machine learning (ML) have enhanced prediction models, particularly for volatile assets like cryptocurrencies, which pose significant challenges for portfolio optimization. Given their complexity, ML techniques offer potential improvements in portfolio performance. This study proposes a Deep Transformer Q-Learning (DTQL) model for optimizing a portfolio of 15 cryptocurrencies. It is the first to compare Transformer, Long Short-Term Memory (LSTM), and Multi-Output Artificial Neural Network (ANN) models using a common dataset that includes an economic crisis period. The study employs Reinforcement Learning (RL) within a Markov Decision Process (MDP) framework to train models using historical price data of the most liquid cryptocurrencies. This approach enables the model to learn optimal allocation policies, adapting more effectively to market volatility. Results demonstrate that the DTQL model outperforms LSTM, ANN, and the market based on the Sharpe Ratio. The Transformer’s attention mechanism and encoder-decoder architecture enhance its ability to capture long-term dependencies without requiring a recurrent structure, leading to superior performance. Findings highlight the potential of Transformer-based RL for cryptocurrency portfolio optimization, aiding investors in decision-making and risk control. Future research could refine the Transformer architecture and integrate additional input variables to develop more sophisticated predictive models.


Optimizar las predicciones de activos financieros para el rendimiento de carteras es un área ampliamente investigada en finanzas. Los avances en informática y aprendizaje automático (ML) han mejorado los modelos de predicción, en particular para activos volátiles como las criptomonedas, que plantean desafíos significativos para la optimización de carteras. Dada su complejidad, las técnicas de ML ofrecen mejoras potenciales en el rendimiento de las carteras. Este estudio propone un modelo Deep Transformer Q-Learning (DTQL) para optimizar una cartera de 15 criptomonedas. Es el primero en comparar modelos Transformer, Memoria a Largo Plazo (LSTM) y Redes Neuronales Artificiales (RNA) de Múltiples Salidas utilizando un conjunto de datos común que incluye un período de crisis económica. El estudio emplea Aprendizaje por Refuerzo (RL) dentro de un marco de Proceso de Decisión de Markov (MDP) para entrenar modelos utilizando datos históricos de precios de las criptomonedas más líquidas. Este enfoque permite al modelo aprender políticas de asignación óptimas, adaptándose de manera más efectiva a la volatilidad del mercado. Los resultados demuestran que el modelo DTQL supera a LSTM, ANN y al mercado basado en el Ratio de Sharpe. El mecanismo de atención de Transformer y la arquitectura de codificador-decodificador mejoran su capacidad para capturar dependencias a largo plazo sin requerir una estructura recurrente, lo que resulta en un rendimiento superior. Los hallazgos resaltan el potencial del aprendizaje automático basado en Transformer para la optimización de carteras de criptomonedas, ayudando a los inversores en la toma de decisiones y el control de riesgos. Investigaciones futuras podrían refinar la arquitectura de Transformer e integrar variables de entrada adicionales para desarrollar modelos predictivos más sofisticados.

Description

Keywords

Deep Transformer Q-Learning, Reinforcement Learning, Portfolio Optimization, Cryptocurrency Market, Markov Decision Process.

Citation