Thesis: Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech
| datacite.subject.fos | Engineering and technology | |
| datacite.subject.fos | Natural sciences::Computer and information sciences::Computer sciences | |
| datacite.subject.fos | Natural sciences::Computer and information sciences::Information science | |
| dc.contributor.correferente | Frisoni, Giacomo ( Universitá di Bologna, Italia) | |
| dc.contributor.department | Departamento de Informática | |
| dc.contributor.guia | Ñanculef Alegria, Juan Ricardo | |
| dc.contributor.patrocinante | Asin Acha, Roberto Javier (Universidad Técnica Federico Santa María) | |
| dc.coverage.spatial | Campus Casa Central Valparaíso | |
| dc.creator | Benoit Cea, Domingo | |
| dc.date.accessioned | 2026-05-27T19:20:02Z | |
| dc.date.available | 2026-05-27T19:20:02Z | |
| dc.date.issued | 2026-03-13 | |
| dc.description.abstract | Counterfactual and contrastive explanations have emerged as promising approaches to interpretability in Natural Language Processing, offering clear and actionable insights into the decision boundaries of text classifiers. However, existing methods have been developed predominantly for English and rely on domain-agnostic minimality metrics that fail to capture the linguistic characteristics of specialized domains. In this thesis, we introduce MMiCE (Multilingual Minimal Contrastive Editing), an extension of the MiCE framework that addresses these limitations through three key contributions. First, we expand MiCE to multilingual settings by resolving critical reproducibility barriers associated with its original implementation and re-implementing it using modern, actively maintained libraries. Second, we propose an inverse gradient attribution strategy for multilabel classification tasks, enabling contrastive explanation generation in settings where the traditional one-vs-rest paradigm breaks down. Third, we incorporate MAUVE as a domain-adapted fluency metric within the edit search framework. We evaluate MMiCE on three datasets spanning two languages and three domain-specific contexts: IMDB (English sentiment classification), Chilean Hate (informal Chilean Spanish hate speech detection), and 42K_HCUCH (Spanish radiology report classification). Our results demonstrate that MMiCE substantially outperforms both the original MiCE framework in terms of edit minimality and Polyjuice as a counterfactual baseline, with a flip-score difference exceeding 99%. | en_US |
| dc.description.abstract | Las explicaciones contrafactuales y contrastivas han surgido como enfoques prometedores para la interpretabilidad en el procesamiento del lenguaje natural, ofreciendo información clara y práctica sobre los límites de decisión de los clasificadores de texto. Sin embargo, los métodos existentes se han desarrollado predominantemente para el inglés y se basan en métricas de minimalidad independientes del dominio que no logran capturar las características lingüísticas de dominios especializados. En esta tesis, presentamos MMiCE (Edición Contrastiva Mínima Multilingüe), una extensión del marco MiCE que aborda estas limitaciones mediante tres contribuciones clave. Primero, ampliamos MiCE a entornos multilingües resolviendo barreras críticas de reproducibilidad asociadas con su implementación original y re implementándola utilizando bibliotecas modernas y con mantenimiento activo. Segundo, proponemos una estrategia de atribución de gradiente inverso para tareas de clasificación multi etiqueta, lo que permite la generación de explicaciones contrastivas en entornos donde el paradigma tradicional de uno contra el resto falla. Tercero, incorporamos MAUVE como una métrica de fluidez adaptada al dominio dentro del marco de búsqueda de ediciones. Evaluamos MMiCE en tres conjuntos de datos que abarcan dos idiomas y tres contextos específicos: IMDB (clasificación de sentimiento en inglés), Chilean Hate (detección de discurso de odio informal en español chileno) y 42K_HCUCH (clasificación de informes radiológicos en español). Nuestros resultados demuestran que MMiCE supera sustancialmente tanto al marco MiCE original en términos de minimalidad de edición como a Polyjuice como referencia contrafactual, con una diferencia en la puntuación de cambio superior al 99 %. | es |
| dc.description.degree | Magíster en Ciencias de la Ingeniería Informática | |
| dc.description.sponsorship | ANID CCTVal (CIA250027) | |
| dc.description.sponsorship | Departamento de Matemática, UTFSM | |
| dc.driver | info:eu-repo/semantics/masterThesis | |
| dc.format.extent | 61 páginas | |
| dc.identifier.doi | 10.71959/yvpy-1195 | |
| dc.identifier.uri | https://cris.usm.cl/handle/123456789/4405 | |
| dc.identifier.uri | https://doi.org/10.71959/yvpy-1195 | |
| dc.language.iso | en | |
| dc.publisher | Universidad Técnica Federico Santa María | |
| dc.rights | Attribution 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | XAI | |
| dc.subject | NLP | |
| dc.subject | Counterfactual Explanations | |
| dc.subject | Hate Speech | |
| dc.subject | Radiology | |
| dc.subject.ods | 9 Industria, innovación e infraestructura | |
| dc.title | Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech | |
| dc.type.driver | info:eu-repo/semantics/masterThesis | |
| dspace.entity.type | Tesis |
