Thesis:
Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech

Simple item page

datacite.subject.fos	Engineering and technology
datacite.subject.fos	Natural sciences::Computer and information sciences::Computer sciences
datacite.subject.fos	Natural sciences::Computer and information sciences::Information science
dc.contributor.correferente	Frisoni, Giacomo ( Universitá di Bologna, Italia)
dc.contributor.department	Departamento de Informática
dc.contributor.guia	Ñanculef Alegria, Juan Ricardo
dc.contributor.patrocinante	Asin Acha, Roberto Javier (Universidad Técnica Federico Santa María)
dc.coverage.spatial	Campus Casa Central Valparaíso
dc.creator	Benoit Cea, Domingo
dc.date.accessioned	2026-05-27T19:20:02Z
dc.date.available	2026-05-27T19:20:02Z
dc.date.issued	2026-03-13
dc.description.abstract	Counterfactual and contrastive explanations have emerged as promising approaches to interpretability in Natural Language Processing, offering clear and actionable insights into the decision boundaries of text classifiers. However, existing methods have been developed predominantly for English and rely on domain-agnostic minimality metrics that fail to capture the linguistic characteristics of specialized domains. In this thesis, we introduce MMiCE (Multilingual Minimal Contrastive Editing), an extension of the MiCE framework that addresses these limitations through three key contributions. First, we expand MiCE to multilingual settings by resolving critical reproducibility barriers associated with its original implementation and re-implementing it using modern, actively maintained libraries. Second, we propose an inverse gradient attribution strategy for multilabel classification tasks, enabling contrastive explanation generation in settings where the traditional one-vs-rest paradigm breaks down. Third, we incorporate MAUVE as a domain-adapted fluency metric within the edit search framework. We evaluate MMiCE on three datasets spanning two languages and three domain-specific contexts: IMDB (English sentiment classification), Chilean Hate (informal Chilean Spanish hate speech detection), and 42K_HCUCH (Spanish radiology report classification). Our results demonstrate that MMiCE substantially outperforms both the original MiCE framework in terms of edit minimality and Polyjuice as a counterfactual baseline, with a flip-score difference exceeding 99%.	en_US
dc.description.abstract	Las explicaciones contrafactuales y contrastivas han surgido como enfoques prometedores para la interpretabilidad en el procesamiento del lenguaje natural, ofreciendo información clara y práctica sobre los límites de decisión de los clasificadores de texto. Sin embargo, los métodos existentes se han desarrollado predominantemente para el inglés y se basan en métricas de minimalidad independientes del dominio que no logran capturar las características lingüísticas de dominios especializados. En esta tesis, presentamos MMiCE (Edición Contrastiva Mínima Multilingüe), una extensión del marco MiCE que aborda estas limitaciones mediante tres contribuciones clave. Primero, ampliamos MiCE a entornos multilingües resolviendo barreras críticas de reproducibilidad asociadas con su implementación original y re implementándola utilizando bibliotecas modernas y con mantenimiento activo. Segundo, proponemos una estrategia de atribución de gradiente inverso para tareas de clasificación multi etiqueta, lo que permite la generación de explicaciones contrastivas en entornos donde el paradigma tradicional de uno contra el resto falla. Tercero, incorporamos MAUVE como una métrica de fluidez adaptada al dominio dentro del marco de búsqueda de ediciones. Evaluamos MMiCE en tres conjuntos de datos que abarcan dos idiomas y tres contextos específicos: IMDB (clasificación de sentimiento en inglés), Chilean Hate (detección de discurso de odio informal en español chileno) y 42K_HCUCH (clasificación de informes radiológicos en español). Nuestros resultados demuestran que MMiCE supera sustancialmente tanto al marco MiCE original en términos de minimalidad de edición como a Polyjuice como referencia contrafactual, con una diferencia en la puntuación de cambio superior al 99 %.	es
dc.description.degree	Magíster en Ciencias de la Ingeniería Informática
dc.description.sponsorship	ANID CCTVal (CIA250027)
dc.description.sponsorship	Departamento de Matemática, UTFSM
dc.driver	info:eu-repo/semantics/masterThesis
dc.format.extent	61 páginas
dc.identifier.doi	10.71959/yvpy-1195
dc.identifier.uri	https://cris.usm.cl/handle/123456789/4405
dc.identifier.uri	https://doi.org/10.71959/yvpy-1195
dc.language.iso	en
dc.publisher	Universidad Técnica Federico Santa María
dc.rights	Attribution 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	XAI
dc.subject	NLP
dc.subject	Counterfactual Explanations
dc.subject	Hate Speech
dc.subject	Radiology
dc.subject.ods	9 Industria, innovación e infraestructura
dc.title	Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech
dc.type.driver	info:eu-repo/semantics/masterThesis
dspace.entity.type	Tesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: MC_DB_2026.pdf
Size:: 1.1 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed to upon submission
Description:

Download

Collections

Tesis de Postgrado

Thesis:
Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech

Files

Original bundle

License bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis: Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech

Files

Original bundle

License bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis:
Counterfactual Explanations for Domain Specific NLP Systems with Applications to Radiology and Hate Speech