Cambios entre Versión 14 y Versión 15 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
26/02/2017 15:02:05 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v14 v15  
    11
    22= 1. Análisis discursivo =
     3
     4La motivación principal del modelado de tópicos es que en las últimas décadas los avances informáticos y tecnológicos han traído consigo que los textos y documentos sean cada vez más numerosos y aparezcan más frecuentemente en formato electrónico. Esto imposibilita que la fuerza humana pueda ser capaz de analizarlos todos y cada uno de ellos, principalmente por la enorme cantidad de tiempo que se requiere invertir para procesar esta gran cantidad de información. Para solucionar este problema, se recurre a automatizar este proceso.
    35
    46vamos a necesitar tres cosas primero tenemos que alimentar el conocimiento a la máquina que sea leer toneladas de cosas segundo tendrá que tener cuidado con las palabras que usamos ya que son las características que cuidan la información y, finalmente, Necesitará cerciorarse de que el conocimiento es cortado En los trozos de tamaño adecuado ya que esto determinará el contexto dentro del cual se conectarán las palabras como para
     
    79
    810El modelado de tópicos es una herramienta que articula un conjunto de técnicas estadísticas para modelar las relaciones subyacentes entre las palabras que componen un conjunto de documentos que conocemos como corpus. De esta manera es posible reconocer cómo las palabras que conforman el corpus se agrupan en conjuntos que podemos identificar como tópicos o temas que dan estructura al corpus como un todo semántico y que pueden servir como criterio de organización del mismo. Esta herramienta permite entonces procesar un conjunto numeroso de textos o documentos electrónicos para analizarlos, resumirlos, conocer su contenido y archivarlos.
    9 
    10 La motivación principal del modelado de tópicos es que en las últimas décadas los avances informáticos y tecnológicos han traído consigo que los textos y documentos sean cada vez más numerosos y aparezcan más frecuentemente en formato electrónico. Esto imposibilita que la fuerza humana pueda ser capaz de analizarlos todos y cada uno de ellos, principalmente por la enorme cantidad de tiempo que se requiere invertir para procesar esta gran cantidad de información. Para solucionar este problema, se recurre a automatizar este proceso.
    11 
    12 
    13 El modelado de tópicos es un problema clásico en la recuperación de información. Los modelos y técnicas relacionados son, entre otros latent semantic indexing, probabilistic latent semantic indexing, non-negative matrix factorization, Gamma-Poisson.
    1411
    1512El modelo LDA es altamente modulable y por lo tanto se puede extender fácilmente; el principal campo de interés es el modelado de las relaciones entre tópicos. Esto se logra, por ejemplo, usando cualquier otra distribución simple en lugar de Dirichlet. The Correlated Topic Model [4] sigue este enfoque, se usa la inducción de una  estructura de correlación entre tópicos utilizando la distribución normal logística en lugar de Dirichlet.