Thesis:
Mecanismo de toma de decisiones emocional bioinspirado aplicado como controlador de un agente autónomo

Loading...
Thumbnail Image

Date

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Técnica Federico Santa María

Abstract

El presente trabajo considera la extensión de un modelo de lazos córtico–ganglios basales (CBG), conjunto de estructuras corticales y subcorticales relacionadas con la toma de decisiones, a través de la integración de efectos asociados al nivel de dopamina tónica (tipo D1). La dopamina (DA), neurotransmisor asociado con procesos de aprendizaje y memoria, se ha relacionado con efectos en el comportamiento con respecto a la razón entre exploración y explotación. El modelo resultante considera características como la consideración de múltiples lazos paralelos –considerando decisiones en múltiples niveles–, reglas de plasticidad sináptica que describen un aprendizaje dopaminérgico basado en recompensas, y la modulación en los procesos de selección sobre la tendencia a la exploración de nuevas opciones, frente a la explotación de conocimiento previamente adquirido. Para evaluar el comportamiento del modelo con respecto a cambios en los niveles de DA, se simula la ejecución de una tarea de selección forzada de dos opciones, considerando aprendizaje entre selecciones. Los datos obtenidos durante los procesos de selección en la realización de esta tarea demuestran variaciones en el comportamiento, en términos de cuánto se promueve la exploración de nuevas opciones en contra de la explotación de la información aprendida, al modificar los niveles de DA tónica. A pesar de esta modificación sobre el comportamiento y el desempeño del modelo, las pruebas realizadas predicen que las señales internas de aprendizaje no se ven modificadas ante variaciones en los niveles de DA. En conjunto, con el fin de evaluar la aplicabilidad del modelo propuesto como mecanismo de toma de decisiones, y en base a la importancia de la regulación entre exploración y explotación en una plataforma robótica, se describe la estructura de un controlador diseñado para enfrentar una tarea de supervivencia de dos recursos, aplicado sobre el robot MODI (MODular Intelligence). Durante la realización de esta tarea, el robot MODI debe aprender en tiempo real cuáles son las acciones que le permiten aumentar su esperanza de vida. Mediante simulaciones, se prueba que el modelo es utilizable como mecanismo de toma de decisiones, y que variaciones en los niveles de dopamina tónica modifican las habilidades de supervivencia del robot. Los datos obtenidos sugieren la existencia de un nivel de DA tónica constante tal que maximiza la esperanza de vida alcanzada por el robot.


The present work extends a cortico–basal ganglia (CBG) loops model, a set of cortical and subcortical structures related to decision-making processes, through the incorporation of effects associated with type-D1 tonic dopamine levels inside the basal ganglia. Dopamine (DA), a neurotransmitter associated with learning- and memory-related processes, has also been related to behavioral modulations of the trade-off between exploitation and exploration. The resulting model presents multiple parallel loops—considering multiple decision-making levels—synaptic plasticity rules that describe reward-based dopaminergic learning, and a modulation of the selection processes that promotes exploring new options against exploiting acquired knowledge. To test the behavioral changes in the proposed model in relation to tonic DA levels, a two-choice forced selection task is simulated, considering learning between selections. Data obtained from the selection processes during the performance of this task effectively show a modulation of the exploitation–exploration trade-off by modifying only the tonic DA level. Despite the modulation of behavior (and consequently of performance), the data predict that changes in tonic DA levels are transparent with respect to internal signals related to learning processes, meaning that learning inside CBG loops occurs independently of variations in tonic dopamine levels. Additionally, in order to test the feasibility of using the CBG loops as a decision-making mechanism, and considering that the exploitation–exploration trade-off is essential for a robotic platform, a robot controller is proposed. The controller is used to address a two-resources survival task, applied to a MODI (MODular Intelligence) robot. During the performance of this task, the MODI robot must learn online which options increase its expected lifetime. Performed simulations show that the CBG loops model can be applied as a decision-making mechanism, while changes in tonic DA levels modulate the robot’s survival skills. The obtained data suggest that there is a constant tonic DA level that maximizes the expected lifetime achieved by the robot.

Description

Keywords

Róbotica bio-inspirada, Mecánismos de toma de decisiones, Ganglios basales, Lazos cortico-ganglios basales, Dopamina

Citation