Cambios entre Versión 2 y Versión 3 de ModeladoTopicos_2017/DiagramaDeFlujo


Ignorar:
Fecha y hora:
30/01/2017 08:37:53 (hace 7 años)
Autor:
rboet
Comentario

Agregado ejecución del pre-procesamiento

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/DiagramaDeFlujo

    v2 v3  
    11
    2 == Metodología de modelado de tópico ==
     2= Metodología de modelado de tópico =
    33
    44
     
    99 * Formatear el corpus
    1010
    11  * Ejecutar el proceso de preprocesamiento sobre el corpus
     11 * Ejecutar el proceso de pre-procesamiento sobre el corpus
    1212   * Excluir palabras no deseadas
    1313
     
    2424
    2525
    26 === Definir el corpus  ===
     26== Definir el corpus  ==
    2727
    2828Un '''corpus lingüístico''' es un conjunto de documentos o textos que presentan características formales comunes, lo que implica que pertenecen a un mismo género discursivo.
     
    3939
    4040Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.
     41
     42== Formatear el corpus ==
     43
     44
     45
     46== Ejecutar el pre-procesamiento sobre el corpus  ==
     47
     48El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz.
     49
     50=== Selección de Vocabulario
     51
     52Dentro del código que permite realizar el pre-procesamiento, existe una sección en la que se configuran las formas gramaticales que se desean conservar en los corpus luego de pre-procesar, es decir, las que le pasemos a la función serán las que no se excluirán, si no pasamos ninguna las excluirá todas por omisión, entre estas formas tenemos:
     53
     54* 'V', verbos
     55* 'A', adjetivos
     56* 'N', sustantivos
     57* 'R', adverbios
     58* 'D', determinantes
     59* 'P', pronombres     
     60* 'C', conjunciones
     61* 'I', interjecciones
     62* 'S', preposiciones
     63
     64== Exclusión de palabras
     65
     66El algoritmo que realiza el pre-procesamiento, también permite excluir palabras (que se deben conocer a priori)que no aportan ninguna carga lingüística para el análisis, es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra '''pueblo''' y en el corpus existe la palabra '''pueblos''' esta última no será excluida ya que es está plural y no es pueblos es distinto de pueblo