| 41 | |
| 42 | == Formatear el corpus == |
| 43 | |
| 44 | |
| 45 | |
| 46 | == Ejecutar el pre-procesamiento sobre el corpus == |
| 47 | |
| 48 | El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz. |
| 49 | |
| 50 | === Selección de Vocabulario |
| 51 | |
| 52 | Dentro del código que permite realizar el pre-procesamiento, existe una sección en la que se configuran las formas gramaticales que se desean conservar en los corpus luego de pre-procesar, es decir, las que le pasemos a la función serán las que no se excluirán, si no pasamos ninguna las excluirá todas por omisión, entre estas formas tenemos: |
| 53 | |
| 54 | * 'V', verbos |
| 55 | * 'A', adjetivos |
| 56 | * 'N', sustantivos |
| 57 | * 'R', adverbios |
| 58 | * 'D', determinantes |
| 59 | * 'P', pronombres |
| 60 | * 'C', conjunciones |
| 61 | * 'I', interjecciones |
| 62 | * 'S', preposiciones |
| 63 | |
| 64 | == Exclusión de palabras |
| 65 | |
| 66 | El algoritmo que realiza el pre-procesamiento, también permite excluir palabras (que se deben conocer a priori)que no aportan ninguna carga lingüística para el análisis, es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra '''pueblo''' y en el corpus existe la palabra '''pueblos''' esta última no será excluida ya que es está plural y no es pueblos es distinto de pueblo |