wiki:ModeladoTopicos_2017/DiagramaDeFlujo

Navegación de contexto

Version 3 (modified by rboet, 7 años ago) (diff)
Agregado ejecución del pre-procesamiento

Metodología de modelado de tópico

Actividades generales para generar un modelado de tópicos de una consulta pública

Definir el corpus

Formatear el corpus

Ejecutar el proceso de pre-procesamiento sobre el corpus
- Excluir palabras no deseadas

Preparación de entradas para el algoritmo LDA

Ejecutar algoritmo LDA
- Definir parámetros de ejecución

Presentar resultados del algoritmo LDA
- Configurar parámetros de presentación de resultados

TODO: Hacer el diagrama de actividades

Definir el corpus

Un corpus lingüístico es un conjunto de documentos o textos que presentan características formales comunes, lo que implica que pertenecen a un mismo género discursivo.

Los géneros discursivos son tipos estables de formas de organización de las unidades discursivas de acuerdo con la situación y el propósito comunicacional. Estas formas de organización del discurso pueden caracterizarse de acuerdo con su modalidad de producción (oral/escrita), con su modo de transmisión, con el tipo de interacción que permiten establecer entre los sujetos (monológicos/dialógicos), así como con el grado de formalidad (formal/informal), entre otros rasgos.

Por ejemplo, el discurso periodístico contiene diversos géneros como la entrevista (oral, dialógico, más o menos formal), el reportaje (escrito o audiovisual, monológico generalmente, y más formal), o la nota de prensa (escrito, monológico, formal), entre otros.

Para considerar un conjunto de textos como pertenecientes a un corpus factible de analizar como un todo es necesario que los mismos puedan caracterizarse bajo un mismo género discursivo, además de otros posibles rasgos comunes entre los textos, por ejemplo, artículos científicos (de una misma disciplina o no), notas de prensa (de un periodo determinado, de un tema particular, o de un medio o periodista específico), poemas (de un periodo específico, de un mismo autor, o de un mismo tema).

Si bien un corpus puede estar compuesto por dos o más textos (técnicamente es un conjunto finito de documentos), en el caso particular de las posibilidades de análisis que brinda el LDA, esta pareciera adaptarse mejor al análisis de corpus amplios, que contengan un número considerablemente extenso de textos (las pruebas hasta ahora realizadas nos indican que el número de textos debe superar idealmente 1000 unidades, pudiendo tener una extensión breve cada una de ellas, como en el caso de las notas de prensa digital).

La definición del corpus implica entonces identificar un conjunto finito de textos que puedan ser considerados como similares en sus características formales (un conjunto de artículos científicos, un conjunto de entrevistas abiertas realizadas en trabajo de campo, las respuestas abiertas de una consulta pública, un conjunto de notas de prensa digital, entre otros) y que para el análisis mediante la aplicación del LDA debe contener un número superior a 1000 textos.

Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.

Formatear el corpus

Ejecutar el pre-procesamiento sobre el corpus

El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz.

Selección de Vocabulario

Dentro del código que permite realizar el pre-procesamiento, existe una sección en la que se configuran las formas gramaticales que se desean conservar en los corpus luego de pre-procesar, es decir, las que le pasemos a la función serán las que no se excluirán, si no pasamos ninguna las excluirá todas por omisión, entre estas formas tenemos:

'V', verbos
'A', adjetivos
'N', sustantivos
'R', adverbios
'D', determinantes
'P', pronombres
'C', conjunciones
'I', interjecciones
'S', preposiciones

Exclusión de palabras

El algoritmo que realiza el pre-procesamiento, también permite excluir palabras (que se deben conocer a priori)que no aportan ninguna carga lingüística para el análisis, es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra pueblo y en el corpus existe la palabra pueblos esta última no será excluida ya que es está plural y no es pueblos es distinto de pueblo

Adjuntos (3)

topicos_1.png (50.5 KB) - added by rboet 7 años ago. Diagrama de Barra de los corpus
topicos_2.png (14.5 KB) - added by rboet 7 años ago. Tópicos
topicos_3.png (91.9 KB) - added by rboet 7 años ago. Todos los tópicos en un documento particular

Download all attachments as: .zip