Thesis:
Risk-Aware Portfolio Optimization via Reinforcement Learning with Expected Shortfall

Loading...
Thumbnail Image

Date

2025-11-24

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

En esta tesis se realiza el desarrollo de un modelo de Reinforcement Learning para optimización secuencial de portafolios, incorporando el riesgo mediante el Expected Shortfall. El modelo aprende políticas de decisiones sobre activos de un portafolio (comprar, vender o mantener) usando información de retornos de distintos tipos de activos (acciones, ETFs y criptomonedas) para distintas líneas temporales, junto con un umbral de decisión compuesta que se adapta de forma dinámica según la volatilidad de los retornos. Basándose en prueba y error, obteniendo como recompensa una métrica de retorno ajustado por riesgo, definida por el retorno marginal obtenido de un conjunto de movimientos respecto a una inversión libre de riesgo, ajustada por una métrica de riesgo explícita.El objetivo principal de la tesis es evaluar si un enfoque de Reinforcement Learning logra detectar patrones dinámicos de mercado y lograr generalizarlos para escenarios fuera de muestra. Comparándolo con otros modelos tanto financieros estadísticos, como modelos de machine learning supervisados y no supervisados. Los resultados muestran que, para enfoques más conservadores sobre el umbral, el modelo de Reinforcement Learning tiene un menor gap entre entrenamiento validación y testeo, siendo sus resultados más permanentes entre fases. Los enfoques más de rentabilidad pura, poseen mayor volatilidad entre fases de validación y testeo, teniendo un mayor riesgo que sus competidores y resultados similares.


This thesis presents the development of a Reinforcement Learning model for sequential portfolio optimization, incorporating risk through Expected Shortfall. The model learns decision policies for portfolio assets (buy, sell, or hold) using return data from different asset classes (stocks, ETFs, and cryptocurrencies) across various timeframes, along with a composite decision threshold that dynamically adapts to return volatility. Based on trial and error, the model rewards the user with a risk-adjusted return metric, defined as the marginal return obtained from a set of trades relative to a risk-free investment, adjusted by an explicit risk metric. The main objective of this thesis is to evaluate whether a Reinforcement Learning approach can detect dynamic market patterns and generalize them to out-of-sample scenarios. This evaluation is compared with other models, including statistical financial models and supervised and unsupervised machine learning models. The results show that, for more conservative approaches to the threshold, the Reinforcement Learning model has a smaller gap between training, validation, and testing, resulting in more consistent outcomes across phases. Approaches focused more on pure profitability exhibit greater volatility between validation and testing phases, carrying a higher risk than their competitors but producing similar results.

Description

Keywords

Portoflio Optimization, Reinforcement Learning, Expected Shortfall

Citation