Thesis: Topic Models Ensembles
| datacite.subject.fos | Natural sciences::Computer and information sciences | |
| dc.contributor.correferente | Torres López, Claudio Esteban | |
| dc.contributor.correferente | Gonzalez-Ibañez, Roberto (Universidad de Santiago de Chile) | |
| dc.contributor.correferente | Montes y Gomez, Manuel (Instituto Nacional de Astrofísica, Óptica y Electrónica de México) | |
| dc.contributor.department | Departamento de Informática | |
| dc.contributor.guia | Mendoza Rocha, Marcelo Gabriel | |
| dc.coverage.spatial | Campus Casa Central Valparaíso | |
| dc.creator | Ormeño Arriagada, Pablo Iván | |
| dc.date.accessioned | 2025-09-09T14:19:58Z | |
| dc.date.available | 2025-09-09T14:19:58Z | |
| dc.date.issued | 2022-01 | |
| dc.description.abstract | La recuperación de información Adhoc es una tarea desafiante que consiste en hacer ranking de documentos para consultas provenientes desde un enfoque de bolsa de palabras. Los métodos clásicos basados en consultas y documentos de vectores de texto, usan funciones de ponderación de términos para hacer ránking de documentos. Algunos de las limitaciones de estos métodos son que no pueden lidiar con conceptos polisémicos. Además, introducen falsas ortogonalidades entre palabras semánticamente relacionadas. Para superarlas, los enfoques de recuperación de información basados en modelos de temas se pueden explorar. Específicamente, los modelos de temas basados en Latent Dirichlet Allocation (LDA) permiten construir representaciones de documentos de texto en el espacio latente de temas, que modela de mejor manera la polisemia y evitan la generación de representaciones ortogonales entre términos relacionados. Es por esto que se pueden expandir las estrategias de Recuperación basadas en LDA usando estrategias de Aprendizaje de Ensamblado. En este sentido, la selección de modelos obedece a estos paradigmas, por lo que probamos dos enfoques usados exitosamente en el aprendizaje supervisado. Se estudian las técnicas Boosting y Bagging para modelos de temas, usando cada modelo como un experto débil de recuperación. Finalmente, se mezclan las listas de ranking obtenidas de cada modelo usando un enfoque simple pero efectivo de fusión de listas top-k. Se muestra que el enfoque propuesto fortalece los resultados en precisión y en recall, superando a los modelos clásicos de recuperación y las líneas bases de modelos de temas. | es |
| dc.description.abstract | Ad hoc information retrieval is a challenging task that involves ranking documents for queries originating from a bag-of-words approach. Classical methods based on queries and text vector documents use term weighting functions for document ranking. Some limitations of these methods include their inability to handle polysemous concepts. Furthermore, they introduce false orthogonalities between semantically related words. To overcome these limitations, information retrieval approaches based on topic models can be explored. Specifically, topic models based on Latent Dirichlet Allocation (LDA) allow for the construction of text document representations in the latent topic space, which better models polysemy and avoids the generation of orthogonal representations between related terms. Therefore, LDA-based retrieval strategies can be expanded using assembly learning strategies. In this sense, the selection of models follows these paradigms, and we tested two approaches successfully used in supervised learning. Boosting and bagging techniques are studied for topic models, using each model as a weak recall expert. Finally, the ranking lists obtained from each model are merged using a simple but effective top-k list merging approach. The proposed approach is shown to improve accuracy and recall, outperforming classical recall models and topic model baselines. | en_US |
| dc.description.degree | Doctorado en Ingeniería Informática | |
| dc.driver | info:eu-repo/semantics/doctoralThesis | |
| dc.format.extent | 131 páginas | |
| dc.identifier.doi | 10.71959/szdp-5a04 | |
| dc.identifier.uri | https://cris.usm.cl/handle/123456789/4013 | |
| dc.identifier.uri | https://doi.org/10.71959/szdp-5a04 | |
| dc.language.iso | es | |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Recuperacion de informacion ADHOC | |
| dc.subject | latent dirichlet allocation | |
| dc.subject | Ensemble Learning | |
| dc.subject | Bagging | |
| dc.subject | Boosting | |
| dc.subject.ods | 9 Industria, innovación e infraestructura | |
| dc.title | Topic Models Ensembles | |
| dspace.entity.type | Tesis |
Files
Original bundle
1 - 1 of 1
