Cambios entre Versión 9 y Versión 10 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
26/02/2017 13:21:22 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v9 v10  
    1111
    1212La motivación principal del modelado de tópicos es que en las últimas décadas los avances informáticos y tecnológicos han traído consigo que los textos y documentos sean cada vez más numerosos y aparezcan más frecuentemente en formato electrónico. Esto imposibilita que la fuerza humana pueda ser capaz de analizarlos todos y cada uno de ellos, principalmente por la enorme cantidad de tiempo que se requiere invertir para procesar esta gran cantidad de información. Para solucionar este problema, se recurre a automatizar este proceso.
     13
     14
     15El modelado de tópicos es un problema clásico en la recuperación de información. Los modelos y técnicas relacionados son, entre otros latent semantic indexing, probabilistic latent semantic indexing, non-negative matrix factorization, Gamma-Poisson.
     16
     17El modelo LDA es altamente modulable y por lo tanto se puede extender fácilmente; el principal campo de interés es el modelado de las relaciones entre tópicos. Esto se logra, por ejemplo, usando cualquier otra distribución simple en lugar de Dirichlet. The Correlated Topic Model [4] sigue este enfoque, se usa la inducción de una  estructura de correlación entre tópicos utilizando la distribución normal logística en lugar de Dirichlet.
     18        El modelo LDA tiene un gran impacto dentro de los problemas de recuperación de información (en este caso obtención de tópicos), con todo esto de ahí su gran importancia dentro de este ámbito, ya que de este modelo han surgido variantes como anteriormente se mencionó.
     19
     20Latent Dirichlet Allocation (LDA) es un modelo generativo probabilístico para la colecciones de datos discretos, como un corpus de texto. El LDA maneja el modelo bayesiano jerárquico, en el que cada elemento de una corpus es modelada como una mezcla finita, sobre un conjunto fundamental de tópicos, donde a su vez cada tópico, modela como una mezcla infinita sobre un conjunto subyacente de tópicos probables, es decir, que todos los corpus se  representan como mezclas aleatorias, sobre tópicos ocultos. Donde se caracteriza cada tópico por una distribución de varias palabras. LDA se presentó por primera como un modelo gráfico para la detección de tópicos y fue desarrollado por  David Blei, Andrew Ng, y Michael Jordan en 2002 [1].
     21
     22        En el modelo LDA, como se mencionó anteriormente, cada documento puede ser visto como una mezcla de varios tópicos. Esto es similar al análisis semántico de probabilidad latente (PLSA) [2], excepto que en la distribución LDA la distribución de los tópicos se supone que es
     23del tipo Dirichlet prior. En la práctica, esto resulta en mezclas coherentes de tópicos en un documento. También se ha observado que el modelo PLSA es equivalente al modelo LDA bajo una distribución uniforme Dirichlet prior [3].
     24
     25Por ejemplo, un modelo LDA podría tener los tópicos gato y perro. El tópico GATO tiene probabilidades de generar varias palabras: leche, maullido, gatito, por lógica la palabra gato tendrá la probabilidad más alta dado este tópico. Por otro lado, el tópico PERRO tiene la probabilidad de generar las palabras: cachorro, ladrido, hueso, y esta última podría tener una alta probabilidad. Las palabras sin determinada relevancia, tendrán aproximadamente la misma probabilidad entre sus clases (o pueden ser colocadas en una categoría aparte).(chrome-extension://bpmcpldpdmajfigpchkicefoigmkfalc/views/app.html)
    1326
    1427