Thesis:
Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech

datacite.subject.fosEngineering and technology
datacite.subject.fosNatural sciences::Computer and information sciences::Computer sciences
datacite.subject.fosNatural sciences::Computer and information sciences::Information science
dc.contributor.correferenteFrisoni, Giacomo ( Universitá di Bologna, Italia)
dc.contributor.departmentDepartamento de Informática
dc.contributor.guiaÑanculef Alegria, Juan Ricardo
dc.contributor.patrocinanteAsin Acha, Roberto Javier (Universidad Técnica Federico Santa María)
dc.coverage.spatialCampus Casa Central Valparaíso
dc.creatorBenoit Cea, Domingo
dc.date.accessioned2026-05-27T19:20:02Z
dc.date.available2026-05-27T19:20:02Z
dc.date.issued2026-03-13
dc.description.abstractCounterfactual and contrastive explanations have emerged as promising approaches to interpretability in Natural Language Processing, offering clear and actionable insights into the decision boundaries of text classifiers. However, existing methods have been developed predominantly for English and rely on domain-agnostic minimality metrics that fail to capture the linguistic characteristics of specialized domains. In this thesis, we introduce MMiCE (Multilingual Minimal Contrastive Editing), an extension of the MiCE framework that addresses these limitations through three key contributions. First, we expand MiCE to multilingual settings by resolving critical reproducibility barriers associated with its original implementation and re-implementing it using modern, actively maintained libraries. Second, we propose an inverse gradient attribution strategy for multilabel classification tasks, enabling contrastive explanation generation in settings where the traditional one-vs-rest paradigm breaks down. Third, we incorporate MAUVE as a domain-adapted fluency metric within the edit search framework. We evaluate MMiCE on three datasets spanning two languages and three domain-specific contexts: IMDB (English sentiment classification), Chilean Hate (informal Chilean Spanish hate speech detection), and 42K_HCUCH (Spanish radiology report classification). Our results demonstrate that MMiCE substantially outperforms both the original MiCE framework in terms of edit minimality and Polyjuice as a counterfactual baseline, with a flip-score difference exceeding 99%.en_US
dc.description.abstractLas explicaciones contrafactuales y contrastivas han surgido como enfoques prometedores para la interpretabilidad en el procesamiento del lenguaje natural, ofreciendo información clara y práctica sobre los límites de decisión de los clasificadores de texto. Sin embargo, los métodos existentes se han desarrollado predominantemente para el inglés y se basan en métricas de minimalidad independientes del dominio que no logran capturar las características lingüísticas de dominios especializados. En esta tesis, presentamos MMiCE (Edición Contrastiva Mínima Multilingüe), una extensión del marco MiCE que aborda estas limitaciones mediante tres contribuciones clave. Primero, ampliamos MiCE a entornos multilingües resolviendo barreras críticas de reproducibilidad asociadas con su implementación original y re implementándola utilizando bibliotecas modernas y con mantenimiento activo. Segundo, proponemos una estrategia de atribución de gradiente inverso para tareas de clasificación multi etiqueta, lo que permite la generación de explicaciones contrastivas en entornos donde el paradigma tradicional de uno contra el resto falla. Tercero, incorporamos MAUVE como una métrica de fluidez adaptada al dominio dentro del marco de búsqueda de ediciones. Evaluamos MMiCE en tres conjuntos de datos que abarcan dos idiomas y tres contextos específicos: IMDB (clasificación de sentimiento en inglés), Chilean Hate (detección de discurso de odio informal en español chileno) y 42K_HCUCH (clasificación de informes radiológicos en español). Nuestros resultados demuestran que MMiCE supera sustancialmente tanto al marco MiCE original en términos de minimalidad de edición como a Polyjuice como referencia contrafactual, con una diferencia en la puntuación de cambio superior al 99 %.es
dc.description.degreeMagíster en Ciencias de la Ingeniería Informática
dc.description.sponsorshipANID CCTVal (CIA250027)
dc.description.sponsorshipDepartamento de Matemática, UTFSM
dc.driverinfo:eu-repo/semantics/masterThesis
dc.format.extent61 páginas
dc.identifier.doi10.71959/yvpy-1195
dc.identifier.urihttps://cris.usm.cl/handle/123456789/4405
dc.identifier.urihttps://doi.org/10.71959/yvpy-1195
dc.language.isoen
dc.publisherUniversidad Técnica Federico Santa María
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectXAI
dc.subjectNLP
dc.subjectCounterfactual Explanations
dc.subjectHate Speech
dc.subjectRadiology
dc.subject.ods9 Industria, innovación e infraestructura
dc.titleCounterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech
dc.type.driverinfo:eu-repo/semantics/masterThesis
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MC_DB_2026.pdf
Size:
1.1 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: