Cambios entre Versión 36 y Versión 37 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
28/03/2017 13:33:09 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v36 v37  
    117117[[Image(consulta.png)]]
    118118
     119
     120
     121=== Resultados de la aplicación de las herramientas ===
     122
     123Con el fin de entender mejor el funcionamiento del LDA para el análisis de corpus lingüísticos, diseñamos y aplicamos un protocolo de análisis piloto para tres (2) corpus de naturaleza discursiva distinta, que nos permitieran entrever posibles diferencias en los resultados que apunten a identificar categorías discursivas que puedan ser analizadas mediante la aplicación del LDA a corpus amplios.
     124
     125A continuación detallaremos cada corpus de análisis, así como los rasgos discursivos que consideramos de interés a partir de los resultados obtenidos en el análisis mediante el uso del LDA.
     126
     127'''1. Plan de la Patria'''
     128
     129''I. Definición del corpus''
     130
     131A partir de la consulta pública constituyente convocada por el Presidente Hugo Chávez en el año 2012 en torno a la propuesta del Plan de la Patria (2013-2019) se constituyó un corpus de análisis conformado por 4.634 consultas recibidas mediante el sistema de consulta pública digital. Este sistema solicitaba al usuario (individuo o colectivo) completar una serie de campos (de identificación y relativos a la propuesta a subscribir) que le permitían desarrollar una propuesta que pudiera ser incorporada como parte del Plan Nacional de Desarrollo de la Nación, Plan de la Patria.
     132
     133Las consultas recibidas en este proceso presentan una serie de características textuales y discursivas comunes que nos permiten considerarlas un conjunto de textos factibles de analizar en tanto corpus. Las mismas son muestras de habla escrita, con rasgos de formalidad, dada la situación de habla institucional en la que se enmarcan, y generalmente desarrollan uno o dos tópicos semánticos, por cuanto se solicitaba como parte de la consulta que se identificara un objetivo general del Plan de la Patria con el cual se relacionaba la propuesta a realizar mediante el sistema de consulta y esto restringe generalmente el campo semántico a desarrollar.
     134
     135''II. Preprocesamiento del Corpus''
     136
     137El procedimiento correspondiente al preprocesamiento de los corpus viene dado por un script diseñado en python, que contiene una serie de configuraciones que indican cómo se debe procesar los textos antes de ser ingresados a una librería llamada freeling.
     138Esta configuración consiste en listar los elementos textuales que se deben excluir antes de ser procesado. En este apartado tenemos las categorías: verbos, adjetivos, sustantivos, adverbios, determinantes, pronombres, conjunciones, interjecciones y preposiciones, de las cuales generalmente se excluyen por razones de relevancia semántica los pronombres, conjunciones, interjecciones, preposiciones y adverbios.
     139
     140Una vez hecho esto la librería se encarga de procesar y arrojar los resultados en un formato que luego será interpretado por el LDA y cuya interpretación se ve representada en la interfaz gráfica que se dispone a mostrar al usuario.
     141La interfaz de usuario proviene de un proyecto en github, perteneciente a un desarrollador de la universidad de Indiana, el cual implementa la visualización de datos del LDA en el framework VSM. En este sentido, se consideró cambiar esta implementación por un framework más robusto como lo es Django y poder así adaptarlo a las necesidades pertinentes de nuestro contexto tanto político como social.
     142
     143Es importante destacar que la implementación del VSM trabajaba por defecto con una implementación de LDA basada en el muestreo de Gibbs (modelo con el que se estuvo trabajando en un principio y por la naturaleza de los resultados se intuye que convergía), por lo que con colaboración de algunos scripts realizados por Jamie Murdock (autor del proyecto en github), más algunos de autoría de Jorge Redondo se pudieron traer resultados del LDA-C (LDA de Blei) a la interfaz. Cabe destacar que estos resultados eran mejores que los presentados anteriormente por los del muestreo de Gibbs.
     144
     145El cambio más importante a nivel de visualización con respecto al proyecto original fue la implementación que permitió ver la estructura de cada de uno de los corpus por separado, y a su vez permitir ver a través de una nube de palabras la relevancia de cada palabra dentro de los tópicos que constituyen el corpus seleccionado, es decir que entre más porcentaje (determinado por el LDA) tenga una palabra en el tópico, mayor será su tamaño en la nube de palabras.
     146
     147''III. Resultados''
     148
     149Los resultados obtenidos mediante la aplicación del LDA al procesamiento del corpus Plan de la Patria mostraron consistencia semántica en la identificación de los tópicos relevantes dentro del corpus, así como en la identificación de la relevancia de las propuestas dentro de cada tópico (por su grado de proximidad semántica con respecto al tópico), y la identificación de la relevancia de cada palabra dentro de los tópicos.
     150
     151Se obtuvieron resultados que permitieron identificar desde los 10 hasta tópicos más relevantes hasta 90 tópicos, lo que resulta de gran utilidad en un corpus tan amplio y de naturaleza semántica tan diversa como un consulta pública relativa al Plan Nacional de Desarrollo, lo que contempla todas las áreas de competencia del Estado y las áreas de interés de las y los ciudadanos.
     152
     153En la figura 1 se puede apreciar la visualización de los resultados del análisis del Corpus Plan de la Patria identificando 70 tópicos.
     154
     155
     156Figura 1
     157
     158Mediante la herramienta de visualización es factible seleccionar un tópico, en este caso el tópico 52 (social, propuesta, general, ejecución, gobierno, ciudadanos, proceso, creación, país, organización, poder, consejos comunales, fortalecimiento, debe, comunas, comunales, hacer, comunidades…), y ordenar los textos que componen el corpus de acuerdo con la relevancia que tenga ese tópico en cada uno de los textos. En este caso la propuesta_1 es el documento más relevante para el tópico 52.
     159
     160En la figura 2 podemos apreciar la visualización de la relevancia de cada palabra dentro de un texto, en este caso la propuesta_1.
     161
     162Figura 2
     163
     164Esta interface permite identificar rápidamente mediante el uso de colores el tópico de pertenencia de cada palabra identificada como perteneciente aun tópico dentro de la propuesta, lo que resulta útil al momento de identificar relaciones semánticas entre los textos que componen el corpus. Igualmente, el tamaño de la palabra dentro del texto nos indica la relevancia del término a lo interno del tópico al que pertenece, esto es su frecuencia de aparición dentro del tópico.
     165
     166
     1671. Medios digitales
     168
     169I.  Definición del corpus
     170A fines de constituir un corpus factible para probar el funcionamiento del modelado de tópicos mediante el uso del algoritmo LDA en el análisis de medios de comunicación digitales en Venezuela, se definió un periodo comprendido entre el 17 y 18 de febrero de 2016. Tal periodo se definió tomando en cuenta la alocución presidencial del día 17 de febrero en la que el Presidente de la República Nicolás Maduro y su gabinete ministerial anunciaron una serie de medidas económicas de alto impacto en la vida nacional, lo que se identificó como un evento comunicacional de alta repercusión en la agenda mediática del país. Este evento genera un parámetro claro, tanto para la definición del corpus de estudio, como para la evaluación de la eficacia de la herramienta para el análisis de discurso mediático, al poder comprobar en los resultados del análisis si el LDA modela los tópicos relativos a los temas presentados en tal evento comunicacional, que se espera sean los temas más recurrentes en la agenda de los medios nacionales.
     171El corpus está constituido enteramente por notas de prensa digitales, cuyo formato textual generalmente conserva una tipología definida por ser un tipo de texto formal, conciso (un promedio de dos párrafos por nota), en el que se desarrolla uno o dos temas generales en promedio.
     172
     173II.  Automatización de la compilación del corpus
     174Se diseñó una herramienta de web scrapping para la recolección automatizada de las notas de prensa identificadas como publicadas en el periodo definido. Para tal fin, se identificó las secciones de Nacionales, Políticas y Economía como las de interés para el análisis, excluyendo así las demás secciones de los medios a analizar. Se seleccionó un grupo de cinco (5) medios digitales de relevancia nacional, con el propósito de normalizar la identificación tanto de la fecha como de la sección de publicación de la nota.
     175Se obtuvo de esta manera un corpus de 915 notas de medios digitales publicadas entre el 17 y 18 de febrero en las secciones nacional, política y economía que esperábamos mostraran principalmente los temas abordados en los anuncios económicos gubernamentales.
     176La herramienta de web scrapping se desarrolló usando un framework de Python llamado Scrapy, el cual esta diseñado precisamente para esa tarea. Es importante resaltar que para poder realizar scrapping a una web es necesario conocer con antelación la estructura del sitio web a inspeccionar, hecho esto se procede a crear un araña (término que se le da a un programa que inspecciona una web de manera automatizada) con las configuraciones correspondientes al sitio del que se extraerá la información, por lo que es importante resaltar que debido a la diversidad de los sitios de noticias es preferible contar con una araña personalizada que se adapte a las necesidades especificas de un sitio, de modo que si el mismo cambia con el tiempo, el único código que se vería afectado es el de la araña correspondiente.
     177Los principales parámetros que se deben considerar son las URL's o direcciones del sitio que se desean explorar, las categorías que se desean tomar en cuenta y lo más importante y que conlleva más trabajo es conocer la estructura de los artículos para así proceder a la extracción de la información que los conforman.
     178Para el trabajo planteado en particular fue necesario plantearse dos parámetros en particular, la fecha de inicio y la fecha de fin, es decir el intervalo del que se extraerá la información.
     179Otro punto relevante con los medios digitales, es que la estructura de los sitios web se deben prestar para el scrapping, lo que se puede resumir para este caso en 3 aspectos: El primero es que el sitio tenga sus noticias clasificadas por categorías (es algo elemental en toda noticia, pero hay sitios que no lo hacen), segundo que tengan en sus páginas de categorías un historial (es decir, la data histórica de todas las noticias que se han publicado, por lo general en una tabla), se puede citar el ejemplo de El Universal, que no lo hace por ejemplo en ninguna categoría; el tercer y último aspecto es que en caso de que la tabla cargue de forma dinámica (Ajax por lo general) es necesario consultar a las URL que hace petición el servidor para traerse los datos, y algunos sitios manejan autenticación para poder acceder a dichas URL'S.
     180Ahora entrando en materia sobre el procedimiento que se realizó para extraer el material de los medios digitales se puede resumir en los siguientes pasos:
     181Crear la araña y configurarlas con URL's del sitio
     182Configurar los parámetros para extraer la información (se especifica de donde se extraerá el autor, titulo, fecha, cuerpo de la noticia, etc)
     183Se corre por consola la araña pasando por parámetro el intervalo de las fechas que se desea buscar
     184Al finalizar el scrapping la araña crea un archivo en formato .json con los resultados de todos los medios
     185Nota: Como la araña en si busca por la tabla que se encuentra en la sección especificada, a modo de reducir los tiempos de espera se puede configurar dentro de la araña desde que página a que página se debe buscar (obviamente conociendo dicho intervalo a priori)
     186
     187Una vez realizado el scrapping es necesario transformar los archivos .json que arroja como salida en archivos de texto plano que puedan ser tratados por el preprocesamiento, tarea que se realizó con un script en python.
     188Es importante que los tiempos de espera son cortos, pero a su vez van relacionados con los servidores en los que estén alojados los sitios, como ejemplo de guía: Si se establecen a priori las páginas, un scrapping con una conexión promedio a un sitio con una velocidad promedio puede tardar de 2min a 5min, ahora sin conocer a priori las páginas y tomando en cuenta unas fechas como las analizadas (febrero), digamos una noticia de unos 3-4 meses de anterioridad, dependiendo del flujo de noticias que tenga el sitio, se puede estimar que el tiempo de espero podría ser de 15-30min. Ahora el tiempo que tarda el script en convertir .json en texto plano, son milésimas de segundos, si son muchos datos a procesar tal vez unos pocos segundos, en general nada de que preocuparse.
     189
     190III. Preprocesamiento del corpus
     191A partir de una primera corrida de los textos compilados se pudo identificar una serie de términos de frecuente aparición a lo largo de todos los tópicos y que son característicos del tipo de género discursivo periodístico. Estas palabras se identificaron y seleccionaros para ser excluidas junto con el preprocesamiento estandar del texto que excluye palabras de bajo interés para el análisis por su naturaleza gramatica (preposiciones, artículos, adverbios).
     192
     193Preprocesamiento de discurso periodístico
     194
     195Sustantivos
     196País
     197Venezuela
     198Año
     199Día
     200Caracas
     201Ayer
     202
     203Adjetivos
     204Venezolano
     205
     206Verbos
     207Haber
     208Decir
     209Hablar
     210Explicar
     211Indicar
     212Asegurar
     213Aseverar
     214Anunciar
     215Realizar
     216Informar
     217Calificar
     218Poner
     219Querer
     220Presentar
     221Seguir
     222Llevar
     223Expresar
     224Manifestar
     225Considerar
     226Afirmar
     227Destacar
     228Señalar
     229Referir
     230Llamar
     231Agregar
     232Publicar
     233Poder
     234
     235
     236
     237IV. Resultados
     238A partir de este piloto de análisis automatizado mediante el uso de LDA del corpus constituido por cerca de mil notas digitales de cinco medios venezolanos se obtuvo resultados de interés que nos permiten entrever la pertinencia del uso de esta herramienta para la automatización de procesos de análisis de medios de comunicación digital.
     239
     240El análisis del corpus arrojó los siguientes datos para la visualización de diez tópicos:
     241
     24210 Tópicos
     243Tópico 3 – Comisión de contraloría de la AN investiga por corrupción a altos funcionarios del gobierno
     244Tópico 1 – Aumento precio gasolina, precio petróleo, sistema cambiario
     245Tópico 2 – Guyana, Ginebra, Asamblea
     246Tópico 4 – Leopoldo López
     247Tópico 5 – Visita premio Nóbel de la Paz – Leopoldo López
     248Tópico 6 – Ley de Amnistia
     249Tópico 7 – Medidas económicas / modelo económico
     250Tópico 8 – No identificado claramente / relativo a medidas económicas
     251Tópico 9 - No identificado claramente / relativo a medidas económicas
     252Tópico 0 - No identificado claramente / relativo a medidas económicas
     253
     254
     255Estos resultados muestran el tópico principal de las medidas anunciadas por el Presidente Nicolás Maduro en el periodo seleccionado, desplegado en dos subtópicos (Tópicos 1 y 7), y además muestran tópicos políticos de la agenda mediática de la oposición venezolana recogidos por los medios digitales (tópicos 2, 4, 5, y 6).
     256Tales resultados permiten entrever que la herramienta de modelado de tópicos resulta pertinente para la automatización de análisis discursivo de medios de comunicación digital, cuyo formato textual y temático se comporta adecuadamente con el modelo del LDA.
     257
     258
     259
    119260'''REFERENCIAS'''
    120261