Navegación de contexto

Cambios entre Versión 2 y Versión 3 de ModeladoTopicos_2017/DiagramaDeFlujo

Fecha y hora:: 30/01/2017 08:37:53 (hace 7 años)
Autor:: rboet
Comentario: Agregado ejecución del pre-procesamiento

Leyenda

: No modificado
: Añadido
: Eliminado
: Modificado

ModeladoTopicos_2017/DiagramaDeFlujo

-                      v2
+                      v3
 == Metodología de modelado de tópico ==
+= Metodología de modelado de tópico =
 …
  * Formatear el corpus
  * Ejecutar el proceso de preprocesamiento sobre el corpus
+ * Ejecutar el proceso de pre-procesamiento sobre el corpus
    * Excluir palabras no deseadas
 …
 === Definir el corpus  ===
+== Definir el corpus  ==
 Un '''corpus lingüístico''' es un conjunto de documentos o textos que presentan características formales comunes, lo que implica que pertenecen a un mismo género discursivo.
 …
 Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.
+== Formatear el corpus ==
+== Ejecutar el pre-procesamiento sobre el corpus  ==
+El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz.
+=== Selección de Vocabulario
+Dentro del código que permite realizar el pre-procesamiento, existe una sección en la que se configuran las formas gramaticales que se desean conservar en los corpus luego de pre-procesar, es decir, las que le pasemos a la función serán las que no se excluirán, si no pasamos ninguna las excluirá todas por omisión, entre estas formas tenemos:
+* 'V', verbos
+* 'A', adjetivos
+* 'N', sustantivos
+* 'R', adverbios
+* 'D', determinantes
+* 'P', pronombres
+* 'C', conjunciones
+* 'I', interjecciones
+* 'S', preposiciones
+== Exclusión de palabras
+El algoritmo que realiza el pre-procesamiento, también permite excluir palabras (que se deben conocer a priori)que no aportan ninguna carga lingüística para el análisis, es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra '''pueblo''' y en el corpus existe la palabra '''pueblos''' esta última no será excluida ya que es está plural y no es pueblos es distinto de pueblo