Cambios entre Versión 19 y Versión 20 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
27/02/2017 02:25:46 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v19 v20  
    1717 * Tópicos: agrupación de palabras que con mayor frecuencia aparecen juntas, conformando un tema o tópico (http://www.martindoestheblog.com/2015/07/18/una-resena-sobre-lda/). En otras palabras, podemos entender los tópicos como los temas subayecentes al corpus o conjunto de documentos que analizamos. Tales tópicos permiten entrever las relaciones de proximidad o similitud entre un texto y otro.
    1818
    19 === 1.1.3 LDA - Metodología ===
    2019
    21  modelo LDA es altamente modulable y por lo tanto se puede extender fácilmente; el principal campo de interés es el modelado de las relaciones entre tópicos. Esto se logra, por ejemplo, usando cualquier otra distribución simple en lugar de Dirichlet. The Correlated Topic Model [4] sigue este enfoque, se usa la inducción de una  estructura de correlación entre tópicos utilizando la distribución normal logística en lugar de Dirichlet.
    22        
    23 El modelo LDA tiene un gran impacto dentro de los problemas de recuperación de información (en este caso obtención de tópicos), con todo esto de ahí su gran importancia dentro de este ámbito, ya que de este modelo han surgido variantes como anteriormente se mencionó.
     20=== 1.1.3 Metodología del Modelo LDA ===
    2421
    25 Latent Dirichlet Allocation (LDA) es un modelo generativo probabilístico para la colecciones de datos discretos, como un corpus de texto. El LDA maneja el modelo bayesiano jerárquico, en el que cada elemento de una corpus es modelada como una mezcla finita, sobre un conjunto fundamental de tópicos, donde a su vez cada tópico, modela como una mezcla infinita sobre un conjunto subyacente de tópicos probables, es decir, que todos los corpus se  representan como mezclas aleatorias, sobre tópicos ocultos. Donde se caracteriza cada tópico por una distribución de varias palabras. LDA se presentó por primera como un modelo gráfico para la detección de tópicos y fue desarrollado por  David Blei, Andrew Ng, y Michael Jordan en 2002 [1].
    26 
    27         En el modelo LDA, como se mencionó anteriormente, cada documento puede ser visto como una mezcla de varios tópicos. Esto es similar al análisis semántico de probabilidad latente (PLSA) [2], excepto que en la distribución LDA la distribución de los tópicos se supone que es
    28 del tipo Dirichlet prior. En la práctica, esto resulta en mezclas coherentes de tópicos en un documento. También se ha observado que el modelo PLSA es equivalente al modelo LDA bajo una distribución uniforme Dirichlet prior [3].
    29 
    30 Por ejemplo, un modelo LDA podría tener los tópicos gato y perro. El tópico GATO tiene probabilidades de generar varias palabras: leche, maullido, gatito, por lógica la palabra gato tendrá la probabilidad más alta dado este tópico. Por otro lado, el tópico PERRO tiene la probabilidad de generar las palabras: cachorro, ladrido, hueso, y esta última podría tener una alta probabilidad. Las palabras sin determinada relevancia, tendrán aproximadamente la misma probabilidad entre sus clases (o pueden ser colocadas en una categoría aparte).(chrome-extension://bpmcpldpdmajfigpchkicefoigmkfalc/views/app.html)
    31 
    32 Si bien un corpus puede estar compuesto por dos o más textos (técnicamente es un conjunto finito de documentos), en el caso particular de las posibilidades de análisis que brinda el LDA, esta pareciera adaptarse mejor al análisis de corpus amplios, que contengan un número considerablemente extenso de textos (las pruebas hasta ahora realizadas nos indican que el número de textos debe superar idealmente 1000 unidades, pudiendo tener una extensión breve cada una de ellas, como en el caso de las notas de prensa digital).
    33 
    34 La definición del corpus implica entonces identificar un conjunto finito de textos que puedan ser considerados como similares en sus características formales (un conjunto de artículos científicos, un conjunto de entrevistas abiertas realizadas en trabajo de campo, las respuestas abiertas de una consulta pública, un conjunto de notas de prensa digital, entre otros) y que para el análisis mediante la aplicación del LDA debe contener un número superior a 1000 textos.
    35 
    36 Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.
     22Para el procesamiento de documentos se cuenta con el Latent Dirichlet Allocation (LDA), que es un modelo probabilístico para la colecciones de datos discretos, como un corpus de texto. El modelo LDA tiene un gran impacto dentro de los problemas de recuperación de información (en este caso obtención de tópicos), de ahí su gran importancia dentro de este ámbito.
    3723
    3824
    39 La definición del corpus implica entonces identificar un conjunto finito de textos que puedan ser considerados como similares en sus características formales (un conjunto de artículos científicos, un conjunto de entrevistas abiertas realizadas en trabajo de campo, las respuestas abiertas de una consulta pública, un conjunto de notas de prensa digital, entre otros) y que para el análisis mediante la aplicación del LDA debe contener un número superior a 1000 textos.
    4025
    41 Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.
     26 * El LDA maneja el modelo bayesiano jerárquico, en el que cada elemento de una corpus es modelada como una mezcla finita, sobre un conjunto fundamental de tópicos, donde a su vez cada tópico, modela como una mezcla infinita sobre un conjunto subyacente de tópicos probables, es decir, que todos los corpus se  representan como mezclas aleatorias, sobre tópicos ocultos. Donde se caracteriza cada tópico por una distribución de varias palabras. LDA se presentó por primera como un modelo gráfico para la detección de tópicos y fue desarrollado por  David Blei, Andrew Ng, y Michael Jordan en 2002 [1]. Por ejemplo, un modelo LDA podría tener los tópicos gato y perro. El tópico GATO tiene probabilidades de generar varias palabras: leche, maullido, gatito, por lógica la palabra gato tendrá la probabilidad más alta dado este tópico. Por otro lado, el tópico PERRO tiene la probabilidad de generar las palabras: cachorro, ladrido, hueso, y esta última podría tener una alta probabilidad.(chrome-extension://bpmcpldpdmajfigpchkicefoigmkfalc/views/app.html)
     27
     28
    4229
    4330[[Image(plantuml.png​)]]
    4431
    4532
    46 El
    47 
    48 
    49 vamos a necesitar tres cosas primero tenemos que alimentar el conocimiento a la máquina que sea leer toneladas de cosas segundo tendrá que tener cuidado con las palabras que usamos ya que son las características que cuidan la información y, finalmente, Necesitará cerciorarse de que el conocimiento es cortado En los trozos de tamaño adecuado ya que esto determinará el contexto dentro del cual se conectarán las palabras como para
     33 1. Definir el corpus
     34Si bien un corpus puede estar compuesto por dos o más textos (técnicamente es un conjunto finito de documentos), en el caso particular de las posibilidades de análisis que brinda el LDA, esta pareciera adaptarse mejor al análisis de corpus amplios, que contengan un número considerablemente extenso de textos (las pruebas hasta ahora realizadas nos indican que el número de textos debe superar idealmente 1000 unidades, pudiendo tener una extensión breve cada una de ellas, como en el caso de las notas de prensa digital). La definición del corpus implica entonces identificar un conjunto finito de textos que puedan ser considerados como similares en sus características formales (un conjunto de artículos científicos, un conjunto de entrevistas abiertas realizadas en trabajo de campo, las respuestas abiertas de una consulta pública, un conjunto de notas de prensa digital, entre otros) y que para el análisis mediante la aplicación del LDA debe contener un número superior a 1000 textos. Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.
    5035
    5136
    5237
     38El vamos a necesitar tres cosas primero tenemos que alimentar el conocimiento a la máquina que sea leer toneladas de cosas segundo tendrá que tener cuidado con las palabras que usamos ya que son las características que cuidan la información y, finalmente, Necesitará cerciorarse de que el conocimiento es cortado En los trozos de tamaño adecuado ya que esto determinará el contexto dentro del cual se conectarán las palabras como para
    5339
    5440
    55 
    56 
    57   * '''Formatear el corpus'''
     41 2. '''Formatear el corpus'''
    5842Los textos deben encontrarse como se mencionó anteriormente en texto plano, para luego ser pre-procesados y formateados a posteriori de la ejecución del LDA.
    5943
    60  * Ejecutar el pre-procesamiento sobre el corpus
     44 3. Ejecutar el pre-procesamiento sobre el corpus
    6145
    6246El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz. El pre-procesamiento busca eliminar palabras que no aportan a la configuración de los tópicos o temas de interés en un corpus, por ejemplo, las palabras que cumplen una función más de tipo sintáctica y que no tienen una carga semántica relevante en sí mismas (preposiciones, artículos, pronombres), pero también puede servir para eliminar palabras que por la naturaleza misma del corpus tienen una frecuencia de aparición demasiado alta, lo que hace que tampoco aporten a algún tópico en particular, sino que son características del tipo de género discursivo (por ejemplo palabras como decir, informar, indicar, señalar, tienen una frecuencia de aparición muy alta dentro de un corpus de tipo periodístico o mediático, por lo que resulta conveniente eliminarlas en el preprocesamiento de manera de tener una data depurada que permita apreciar mejor la configuración de los tópicos del corpus.