Thesis:
Detección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma

datacite.subject.fosNatural sciences::Computer and information sciences
dc.contributor.correferenteAllende-Cid, Héctor (Pontificia Universidad Católica de Valparaíso)
dc.contributor.departmentDepartamento de Informática
dc.contributor.guiaAllende Olivares, Hector
dc.coverage.spatialCampus Casa Central Valparaíso
dc.creatorRodríguez Ortiz, Sebastián Enrique
dc.date.accessioned2025-04-28T15:25:58Z
dc.date.available2025-04-28T15:25:58Z
dc.date.issued2024-01
dc.description.abstractLa detección del discurso de odio es un campo de investigación cuyo objetivo es mitigar el comportamiento malicioso en plataformas en línea. Estas plataformas generan una gran cantidad de contenido, en el cual moderadores humanos buscan mensajes correspondientes a este tipo de discurso para tomar las acciones pertinentes; sin embargo, no pueden monitorear todo el contenido en su totalidad. Por esta razón, las herramientas del área del procesamiento de lenguaje natural resultan útiles para desarrollar modelos que permitan asistir en el proceso de clasificación de mensajes de forma automatizada. Aunque el discurso de odio es un problema que afecta a la mayoría de los idiomas con presencia en línea, la mayoría de los conjuntos de datos disponibles contienen texto en inglés. Por lo tanto, es importante encontrar formas de aprovechar estos recursos y transferirlos a otros idiomas con un esfuerzo mínimo. Para ello, se pueden utilizar modelos que generen vectores de oraciones independientes del idioma. Estas representaciones pueden ser empleadas como entradas para modelos de aprendizaje automático, entrenados en conjuntos de datos para la detección de discurso de odio en uno o más idiomas. Actualmente existen modelos basados en redes neuronales profundas que permiten la generación de estos vectores, como LASER [1], BERT multilingüe [2] o LaBSE [3]. En esta tesis se propone la utilización de LaBSE como codificador de vectores de oraciones para la tarea de clasificación de discurso de odio en inglés y castellano. Este modelo se utilizará junto a otros modelos del estado del arte, con el fin de realizar una comparación del desempeño de los vectores generados para dicha tarea. Además, se realizará una comparación entre los modelos presentados en esta propuesta para observar su capacidad de clasificación mediante el ajuste fino de las arquitecturas. Para validar la hipótesis de este trabajo, se utilizarán dos conjuntos de datos: el conjunto de SemEval 2019, tarea 5 [4], y un conjunto de mensajes recolectados durante 2021, relacionados con la Convención Constituyente en Chile. Ambos conjuntos contienen mensajes extraídos de la red social Twitter que presentan contenido misógino y en contra de los inmigrantes.es
dc.description.abstractHate speech detection is a research field aimed at mitigating malicious behavior on online platforms. These platforms generate a large amount of content, where human moderators seek messages corresponding to this type of discourse in order to take appropriate actions; however, they cannot monitor all the content in its entirety. For this reason, tools from the field of natural language processing are useful for developing models that assist in the automated classification of messages. Although hate speech is a problem affecting most languages with an online presence, the majority of available datasets contain texts in English. Therefore, it is important to find ways to leverage these resources and transfer them to other languages with minimal effort. For this purpose, models that generate language-independent sentence embeddings can be used. These representations can serve as inputs for machine learning models trained on datasets for hate speech detection in one or more languages. Currently, there are deep neural network-based models that allow the generation of such vectors, such as LASER [1], multilingual BERT [2], or LaBSE [3]. This thesis proposes the use of LaBSE as a sentence vector encoder for the task of hate speech classification in English and Spanish. This model will be used alongside other state-of-the-art models to compare the performance of the generated vectors for this task. Furthermore, a comparison among the proposed models will be conducted to evaluate their classification capabilities through fine-tuning. To validate the hypothesis of this work, two datasets will be used: the SemEval 2019 Task 5 dataset [4], and a set of messages collected during 2021 related to the Chilean Constitutional Convention. Both datasets contain messages from the social network Twitter, featuring misogynistic and anti-immigrant content.en_US
dc.description.degreeMagíster en Ciencias de la Ingeniería Informática
dc.driverinfo:eu-repo/semantics/masterThesis
dc.format.extent82 páginas
dc.identifier.doi10.71959/rx0n-6m47
dc.identifier.urihttps://cris.usm.cl/handle/123456789/2441
dc.identifier.urihttps://doi.org/10.71959/rx0n-6m47
dc.language.isoes
dc.publisherUniversidad Técnica Federico Santa María
dc.rightsAttribution-NonCommercial 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/
dc.subjectDiscurso de odio
dc.subjectProcesamiento de lenguaje natural
dc.subjectClasificación automática
dc.subjectAprendizaje automático
dc.subjectModelos multilingües
dc.subjectHate speech
dc.subjectNatural language processing
dc.subjectAutomatic classification
dc.subjectMachine learning
dc.subjectMultilingual models
dc.subject.ods9 Industria, innovación e infraestructura
dc.subject.ods10 Reducción de las desigualdades
dc.subject.ods16 Paz, justicia e instituciones sólidas
dc.titleDetección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MC_SE_2024.pdf
Size:
1.36 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: