wiki:ModeladoTopicos_2017/topicos

¿Qué es el modelado de tópicos ?

El modelado de tópicos es una herramienta que articula un conjunto de técnicas estadísticas para modelar las relaciones subyacentes entre las palabras que componen un conjunto de documentos que conocemos como corpus. De esta manera es posible reconocer cómo las palabras que conforman el corpus se agrupan en conjuntos que podemos identificar como tópicos o temas que dan estructura al corpus como un todo semántico y que pueden servir como criterio de organización del mismo. Esta herramienta permite entonces procesar un conjunto numeroso de textos o documentos electrónicos para analizarlos, resumirlos, conocer su contenido y archivarlos.

La motivación principal del modelado de tópicos es que en las últimas décadas los avances informáticos y tecnológicos han traído consigo que los textos y documentos sean cada vez más numerosos y aparezcan más frecuentemente en formato electrónico. Esto imposibilita que la fuerza humana pueda ser capaz de analizarlos todos y cada uno de ellos, principalmente por la enorme cantidad de tiempo que se requiere invertir para procesar esta gran cantidad de información. Para solucionar este problema, se recurre a automatizar este proceso.

¿Qué son los tópicos ?

Un tópico en el contexto de modelado de tópicos es una distribución de probabilidades de palabras para un conjunto, e indica la probabilidad que una palabra aparezca en un documento sobre un tópico en particular.

El modelado de los tópicos en el análisis de un corpus permite observar la distribución de las palabras que lo conforman de acuerdo con relaciones semánticas que se establecen entre ellas para conformar ámbitos temáticos que varían de acuerdo a la naturaleza misma de cada corpus.

En otras palabras, podemos entender los tópicos como los temas subayecentes al corpus o conjunto de documentos que analizamos. Tales tópicos permiten entrever las relaciones de proximidad o similitud entre un texto y otro, y de esa forma entender también la conformación de subconjuntos de textos dentro del corpus, ordenados por su relación de cercanía entre los tópicos que los conforman.

Para más información

Si desea saber más al respecto, se deja adjunto un documento que explica de forma más amplía los conceptos del modelado de tópicos y los algoritmos implementados para el mismo.

Last modified 7 años ago Modificado por última vez en fecha 06/02/2017 10:59:00

Adjuntos (1)

Download all attachments as: .zip