Cambios entre Versión 30 y Versión 31 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
28/02/2017 00:15:23 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v30 v31  
    5050
    5151Para el procesamiento de documentos se cuenta con el Latent Dirichlet Allocation (LDA), que es un modelo probabilístico para la colecciones de datos discretos, como un corpus de texto. El modelo LDA tiene un gran impacto dentro de los problemas de recuperación de información (en este caso obtención de tópicos), de ahí su gran importancia dentro de este ámbito.
    52 
    53 
    54  * El LDA maneja el modelo bayesiano jerárquico, en el que cada elemento de una corpus es modelada como una mezcla finita, sobre un conjunto fundamental de tópicos, donde a su vez cada tópico, modela como una mezcla infinita sobre un conjunto subyacente de tópicos probables, es decir, que todos los corpus se  representan como mezclas aleatorias, sobre tópicos ocultos. Donde se caracteriza cada tópico por una distribución de varias palabras. LDA se presentó por primera como un modelo gráfico para la detección de tópicos y fue desarrollado por  David Blei, Andrew Ng, y Michael Jordan en 2002 [1]. Por ejemplo, un modelo LDA podría tener los tópicos gato y perro. El tópico GATO tiene probabilidades de generar varias palabras: leche, maullido, gatito, por lógica la palabra gato tendrá la probabilidad más alta dado este tópico. Por otro lado, el tópico PERRO tiene la probabilidad de generar las palabras: cachorro, ladrido, hueso, y esta última podría tener una alta probabilidad.(chrome-extension://bpmcpldpdmajfigpchkicefoigmkfalc/views/app.html)
    5552
    5653