Thesis: Apoyo a la comparación de múltiples corpus a través de la exploración visual de modelado de tópicos
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El constante aumento en el volumen de datos de tipo texto ha llevado al desarrollo de varios algoritmos destinados a resumir y comprender este tipo de datos. Una solución prometedora este problema es el modelado de temas (en inglés conocido como topic modeling), un enfoque estadístico para extraer temas de altos volúmenes de datos. Humanos que interactúan e interpretan directamente el resultado de estos algoritmos pueden usar herramientas de visualización para interpretar mejor los resultados, sin embargo, estas herramientas todavía tienen una limitación significativa. Las representaciones visuales actuales permiten refinar y comparar temas basados solo en sus palabras claves, lo que genera un rendimiento deficiente cuando estas son demasiado genéricas, están mal conectadas o no proporcionan suficiente información. Para abordar este problema, propongo TopicVisExplorer, un conjunto de visualizaciones interactivas que soporta Latent Dirichlet Allocation (LDA). Esta propuesta tiene por objetivo ayudar a los usuarios durante el refinamiento y comparación de temas. Tres innovaciones claves de este trabajo buscan apoyar el refinamiento del modelo de temas e identificar temas similares de uno o dos corpus: (1) propongo un algoritmo de fusión de temas que considera tanto términos como documentos de los tópicos, (2) un nuevo algoritmo de división de temas basado en sus documentos y (3) una métrica que estima la similitud entre temas en base a sus palabras y documentos más relevantes. Realicé un estudio de usuarios con 95 usuarios no expertos para evaluar las funcionalidades de TopicVisExplorer. Los resultados muestran que los participantes pudieron identificar los temas que necesitan mejorar su calidad. Aproximadamente la mitad de los participantes mejoraron la coherencia de su modelo después de aplicar operaciones de división y fusión de temas. Además, los participantes pudieron identificar temas similares entre dos corpus. Aquellos que utilizaron la métrica de similitud propuesta cometieron menos errores que aquellos que usaron una métrica base.
The constant increase in the volume of textual data has led to the development of various algorithms to summarize and understand this type of data. A promising solution is topic modeling, a statistical approach for extracting themes from high volumes of data. Humans who directly interact with and interpret the output of topic modeling may rely on visualization tools to better interpret the results. However, these tools still have a significant limitation. Current visual representations allow to refine and compare topics based only on their most relevant keywords, leading to poor performance when these terms are too generic, poorly connected, and do not provide enough information. To address this problem, I propose TopicVisExplorer, a set of web-based interactive visualizations of topics estimated using Latent Dirichlet Allocation (LDA). These visualizations aim to support users during topic refinement and comparison. There are three key innovations in this work. I propose (1) a topic merging algorithm that considers both terms and documents of two independent topics, (2) a new document-based topic splitting algorithm, and (3) a topic similarity metric that estimates the similarity between topics regarding their most relevant keywords and most relevant documents. I conducted a user study with 95 non-expert users to evaluate TopicVisExplorer functionalities for refining and comparing topics from a large-scale real-world Twitter dataset. The results show that participants were able to identify topics that need further refinement to improve their quality. About half of the participants improved the topic model coherence after applying topic splitting and topic merging operations. Moreover, they were able to identify similar topics between the two corpora. Those who used the proposed topic similarity metric made significantly fewer erroneous matches than those who used a current state-of-the-art topic similarity metric.
