wiki:ModeladoTopicos_2017/DiagramaDeFlujo

Version 7 (modified by lramirez, 7 años ago) (diff)

--

Metodología de modelado de tópico

Actividades generales para generar un modelado de tópicos de una consulta pública

  • Definir el corpus
  • Formatear el corpus
  • Ejecutar el proceso de pre-procesamiento sobre el corpus
    • Selección del vocabulario
    • Excluir palabras no deseadas
  • Preparación de entradas para el algoritmo LDA
  • Ejecutar implementación del algoritmo LDA
    • Definir parámetros de ejecución
    • Ejecutar LDA
  • Presentar resultados del algoritmo LDA
    • Configurar parámetros de presentación de resultados

TODO: Hacer el diagrama de actividades

Diagrama de Flujo

Definir el corpus

Un corpus lingüístico es un conjunto de documentos o textos que presentan características formales comunes, lo que implica que pertenecen a un mismo género discursivo.

Los géneros discursivos son tipos estables de formas de organización de las unidades discursivas de acuerdo con la situación y el propósito comunicacional. Estas formas de organización del discurso pueden caracterizarse de acuerdo con su modalidad de producción (oral/escrita), con su modo de transmisión, con el tipo de interacción que permiten establecer entre los sujetos (monológicos/dialógicos), así como con el grado de formalidad (formal/informal), entre otros rasgos.

Por ejemplo, el discurso periodístico contiene diversos géneros como la entrevista (oral, dialógico, más o menos formal), el reportaje (escrito o audiovisual, monológico generalmente, y más formal), o la nota de prensa (escrito, monológico, formal), entre otros.

Para considerar un conjunto de textos como pertenecientes a un corpus factible de analizar como un todo es necesario que los mismos puedan caracterizarse bajo un mismo género discursivo, además de otros posibles rasgos comunes entre los textos, por ejemplo, artículos científicos (de una misma disciplina o no), notas de prensa (de un periodo determinado, de un tema particular, o de un medio o periodista específico), poemas (de un periodo específico, de un mismo autor, o de un mismo tema).

Si bien un corpus puede estar compuesto por dos o más textos (técnicamente es un conjunto finito de documentos), en el caso particular de las posibilidades de análisis que brinda el LDA, esta pareciera adaptarse mejor al análisis de corpus amplios, que contengan un número considerablemente extenso de textos (las pruebas hasta ahora realizadas nos indican que el número de textos debe superar idealmente 1000 unidades, pudiendo tener una extensión breve cada una de ellas, como en el caso de las notas de prensa digital).

La definición del corpus implica entonces identificar un conjunto finito de textos que puedan ser considerados como similares en sus características formales (un conjunto de artículos científicos, un conjunto de entrevistas abiertas realizadas en trabajo de campo, las respuestas abiertas de una consulta pública, un conjunto de notas de prensa digital, entre otros) y que para el análisis mediante la aplicación del LDA debe contener un número superior a 1000 textos.

Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.

Formatear el corpus

Ejecutar el pre-procesamiento sobre el corpus

El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz. El pre-procesamiento busca eliminar palabras que no aportan a la configuración de los tópicos o temas de interés en un corpus, por ejemplo, las palabras que cumplen una función más de tipo sintáctica y que no tienen una carga semántica relevante en sí mismas (preposiciones, artículos, pronombres), pero también puede servir para eliminar palabras que por la naturaleza misma del corpus tienen una frecuencia de aparición demasiado alta, lo que hace que tampoco aporten a algún tópico en particular, sino que son características del tipo de género discursivo (por ejemplo palabras como decir, informar, indicar, señalar, tienen una frecuencia de aparición muy alta dentro de un corpus de tipo periodístico o mediático, por lo que resulta conveniente eliminarlas en el preprocesamiento de manera de tener una data depurada que permita apreciar mejor la configuración de los tópicos del corpus.

Selección de Vocabulario

Dentro del código que permite realizar el pre-procesamiento, existe una sección en la que se configuran las formas gramaticales que se desean conservar en los corpus luego de pre-procesar, es decir, las que le pasemos a la función serán las que no se excluirán, si no pasamos ninguna las excluirá todas por omisión, entre estas formas tenemos:

  • 'V', verbos
  • 'A', adjetivos
  • 'N', sustantivos
  • 'R', adverbios
  • 'D', determinantes
  • 'P', pronombres
  • 'C', conjunciones
  • 'I', interjecciones
  • 'S', preposiciones

Exclusión de palabras

El algoritmo que realiza el pre-procesamiento, también permite excluir palabras (que se deben conocer a priori)que no aportan ninguna carga lingüística para el análisis, es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra pueblo y en el corpus existe la palabra pueblos esta última no será excluida ya que es está plural y no es pueblos es distinto de pueblo.

Preparación de entradas para el algoritmo LDA

Entre el pre-procesamiento y la ejecución del LDA existe un paso intermedio, que consiste en tomar la salida de algunos de los archivos resultantes de la ejecución del pre-procesamiento, procesarlos y generar algunos archivos que servirán como entrada para la ejecución del LDA.

Ejecutar implementación del algoritmo LDA

El algoritmo LDA se encarga de procesar archivos con un formato exacto (el cuál es generado mediante el pre-procesamiento) complementado con los archivos generados por el Script intermedio (ver sección anterior) el LDA se encargará de construir los tópicos en la cantidad que se le especifique al utilizar el LDA.

Definir parámetros de ejecución

Los parámetros de ejecución del algoritmo se limitan a la colocar la cantidad de tópicos que se quieren, la ruta al archivo de configuración del LDA, la ruta de los archivos pre-procesados, la ruta de uno de los archivos generados por el archivo intermedio (extensión .dat) y el nombre de la carpeta donde generaremos la salida.

Ejecutar el LDA

Con estos parámetros definidos, simplemente es necesario ejecutar el LDA, esperar que realice el procedimiento y visualizar la carpeta con los archivos correspondientes a la salida.

Presentar resultados del algoritmo LDA

Los resultados del LDA pueden ser visualizados mediante una interfaz web, la cuál necesita un documento como semilla (es decir que se coloque el nombre de uno, o se de en el botón que busca uno aleatorio) para mostrar los corpus en un diagrama de barra cuyo cuerpo esta constituido por la aparición de los tópicos (representados en colores distintos).

Diagrama de Barra de los corpus

Mientras que en el lado derecho podemos ver los tópicos y su respectiva constitución.

Tópicos

Esta misma constitución puede ser inspeccionada más a fondo dando click sobre el documento y viendo la página que muestra a continuación, en la cuál se puede ver la aparición de un tópico en específico o de todos.

Todos los tópicos en un documento particular

Adjuntos (3)

Download all attachments as: .zip