Cambios entre Versión 25 y Versión 26 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
27/02/2017 22:47:50 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v25 v26  
    4141Si bien un corpus puede estar compuesto por dos o más textos (técnicamente es un conjunto finito de documentos), en el caso particular de las posibilidades de análisis que brinda el LDA, esta pareciera adaptarse mejor al análisis de corpus amplios, que contengan un número considerablemente extenso de textos (las pruebas hasta ahora realizadas nos indican que el número de textos debe superar idealmente 1000 unidades, pudiendo tener una extensión breve cada una de ellas, como en el caso de las notas de prensa digital). La definición del corpus implica entonces identificar un conjunto finito de textos que puedan ser considerados como similares en sus características formales (un conjunto de artículos científicos, un conjunto de entrevistas abiertas realizadas en trabajo de campo, las respuestas abiertas de una consulta pública, un conjunto de notas de prensa digital, entre otros) y que para el análisis mediante la aplicación del LDA debe contener un número superior a 1000 textos. Estos textos deben cumplir con los requisitos de estar en formato de texto plano digital (txt) y estar agrupados en un mismo fichero para su procesamiento mediante el uso de LDA.
    4242
    43  2. '''Formatear el corpus'''
     43 '''2. Formatear el corpus'''
     44
     45Los textos deben encontrarse como se mencionó anteriormente en texto plano, para luego ser pre-procesados y formateados a posteriori de la ejecución del LDA.
    4446
    4547
     48 '''3. Ejecutar el pre-procesamiento sobre el corpus'''
    4649
    4750El vamos a necesitar tres cosas primero tenemos que alimentar el conocimiento a la máquina que sea leer toneladas de cosas segundo tendrá que tener cuidado con las palabras que usamos ya que son las características que cuidan la información y, finalmente, Necesitará cerciorarse de que el conocimiento es cortado En los trozos de tamaño adecuado ya que esto determinará el contexto dentro del cual se conectarán las palabras como para
    48 
    49 
    50 
    51 
    52 Los textos deben encontrarse como se mencionó anteriormente en texto plano, para luego ser pre-procesados y formateados a posteriori de la ejecución del LDA.
    5351
    5452Es importante se˜nalar que se descartan las palabras con poco contenido, por ejemplo, los art´ıculos
    5553(la, los, un, unos, etc), las preposiciones (a, con, por, en, para, etc) y los conjuntivos (cuando,
    5654porque, aunque, etc).
    57 
    58  3.  Ejecutar el pre-procesamiento sobre el corpus
    5955
    6056El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz. El pre-procesamiento busca eliminar palabras que no aportan a la configuración de los tópicos o temas de interés en un corpus, por ejemplo, las palabras que cumplen una función más de tipo sintáctica y que no tienen una carga semántica relevante en sí mismas (preposiciones, artículos, pronombres), pero también puede servir para eliminar palabras que por la naturaleza misma del corpus tienen una frecuencia de aparición demasiado alta, lo que hace que tampoco aporten a algún tópico en particular, sino que son características del tipo de género discursivo (por ejemplo palabras como decir, informar, indicar, señalar, tienen una frecuencia de aparición muy alta dentro de un corpus de tipo periodístico o mediático, por lo que resulta conveniente eliminarlas en el preprocesamiento de manera de tener una data depurada que permita apreciar mejor la configuración de los tópicos del corpus.