Thesis:
Detección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma

Simple item page

datacite.subject.fos	Natural sciences::Computer and information sciences
dc.contributor.correferente	Allende-Cid, Héctor (Pontificia Universidad Católica de Valparaíso)
dc.contributor.department	Departamento de Informática
dc.contributor.guia	Allende Olivares, Hector
dc.coverage.spatial	Campus Casa Central Valparaíso
dc.creator	Rodríguez Ortiz, Sebastián Enrique
dc.date.accessioned	2025-04-28T15:25:58Z
dc.date.available	2025-04-28T15:25:58Z
dc.date.issued	2024-01
dc.description.abstract	La detección del discurso de odio es un campo de investigación cuyo objetivo es mitigar el comportamiento malicioso en plataformas en línea. Estas plataformas generan una gran cantidad de contenido, en el cual moderadores humanos buscan mensajes correspondientes a este tipo de discurso para tomar las acciones pertinentes; sin embargo, no pueden monitorear todo el contenido en su totalidad. Por esta razón, las herramientas del área del procesamiento de lenguaje natural resultan útiles para desarrollar modelos que permitan asistir en el proceso de clasificación de mensajes de forma automatizada. Aunque el discurso de odio es un problema que afecta a la mayoría de los idiomas con presencia en línea, la mayoría de los conjuntos de datos disponibles contienen texto en inglés. Por lo tanto, es importante encontrar formas de aprovechar estos recursos y transferirlos a otros idiomas con un esfuerzo mínimo. Para ello, se pueden utilizar modelos que generen vectores de oraciones independientes del idioma. Estas representaciones pueden ser empleadas como entradas para modelos de aprendizaje automático, entrenados en conjuntos de datos para la detección de discurso de odio en uno o más idiomas. Actualmente existen modelos basados en redes neuronales profundas que permiten la generación de estos vectores, como LASER [1], BERT multilingüe [2] o LaBSE [3]. En esta tesis se propone la utilización de LaBSE como codificador de vectores de oraciones para la tarea de clasificación de discurso de odio en inglés y castellano. Este modelo se utilizará junto a otros modelos del estado del arte, con el fin de realizar una comparación del desempeño de los vectores generados para dicha tarea. Además, se realizará una comparación entre los modelos presentados en esta propuesta para observar su capacidad de clasificación mediante el ajuste fino de las arquitecturas. Para validar la hipótesis de este trabajo, se utilizarán dos conjuntos de datos: el conjunto de SemEval 2019, tarea 5 [4], y un conjunto de mensajes recolectados durante 2021, relacionados con la Convención Constituyente en Chile. Ambos conjuntos contienen mensajes extraídos de la red social Twitter que presentan contenido misógino y en contra de los inmigrantes.	es
dc.description.abstract	Hate speech detection is a research field aimed at mitigating malicious behavior on online platforms. These platforms generate a large amount of content, where human moderators seek messages corresponding to this type of discourse in order to take appropriate actions; however, they cannot monitor all the content in its entirety. For this reason, tools from the field of natural language processing are useful for developing models that assist in the automated classification of messages. Although hate speech is a problem affecting most languages with an online presence, the majority of available datasets contain texts in English. Therefore, it is important to find ways to leverage these resources and transfer them to other languages with minimal effort. For this purpose, models that generate language-independent sentence embeddings can be used. These representations can serve as inputs for machine learning models trained on datasets for hate speech detection in one or more languages. Currently, there are deep neural network-based models that allow the generation of such vectors, such as LASER [1], multilingual BERT [2], or LaBSE [3]. This thesis proposes the use of LaBSE as a sentence vector encoder for the task of hate speech classification in English and Spanish. This model will be used alongside other state-of-the-art models to compare the performance of the generated vectors for this task. Furthermore, a comparison among the proposed models will be conducted to evaluate their classification capabilities through fine-tuning. To validate the hypothesis of this work, two datasets will be used: the SemEval 2019 Task 5 dataset [4], and a set of messages collected during 2021 related to the Chilean Constitutional Convention. Both datasets contain messages from the social network Twitter, featuring misogynistic and anti-immigrant content.	en_US
dc.description.degree	Magíster en Ciencias de la Ingeniería Informática
dc.driver	info:eu-repo/semantics/masterThesis
dc.format.extent	82 páginas
dc.identifier.doi	10.71959/rx0n-6m47
dc.identifier.uri	https://cris.usm.cl/handle/123456789/2441
dc.identifier.uri	https://doi.org/10.71959/rx0n-6m47
dc.language.iso	es
dc.publisher	Universidad Técnica Federico Santa María
dc.rights	Attribution-NonCommercial 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/
dc.subject	Discurso de odio
dc.subject	Procesamiento de lenguaje natural
dc.subject	Clasificación automática
dc.subject	Aprendizaje automático
dc.subject	Modelos multilingües
dc.subject	Hate speech
dc.subject	Natural language processing
dc.subject	Automatic classification
dc.subject	Machine learning
dc.subject	Multilingual models
dc.subject.ods	9 Industria, innovación e infraestructura
dc.subject.ods	10 Reducción de las desigualdades
dc.subject.ods	16 Paz, justicia e instituciones sólidas
dc.title	Detección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma
dspace.entity.type	Tesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: MC_SE_2024.pdf
Size:: 1.36 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed to upon submission
Description:

Download

Collections

Tesis de Postgrado

Thesis:
Detección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma

Files

Original bundle

License bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis: Detección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma

Files

Original bundle

License bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis:
Detección de xenofobia y misoginia en Twitter utilizando representaciones independientes del idioma