wiki:ModeladoTopicos_2017/sistematizacion/PropuestaDesarrollo

Version 9 (modified by rboet, 7 años ago) (diff)

cambiadas url de menu derecho

Propuesta de Desarrollo del Proyecto

1. Necesidades y/o problemas

El desarrollo de una democracia participativa y protagónica, enmarcada como estamos en una sociedad contemporánea estructurada sobre rasgos fundamentales de la sociedad de la información, demanda la generación de espacios y mecanismos que permitan y promuevan la participación política en todos los sectores de la sociedad mediante la implementación de herramientas digitales que den soporte y agilicen tales procesos.

El impulso por parte del Estado venezolano de mecanismos que avancen hacia la conformación de un gobierno electrónico ha conllevado experiencias significativas en materia de consultas públicas digitales (Plan de la Patria, Consulta Nacional por la Calidad Educativa, entre otras), como parte de la generación de nuevas formas de participación política enmarcadas en una democracia participativa y protagónica.

Este tipo de consultas abiertas digitales demandan el uso de herramientas automatizadas para el análisis cuantitativo y cualitativo de resultados, lo que implica un desarrollo y apropiación de aspectos informáticos, estadísticos, y de análisis de discurso, que permitan avanzar hacia la automatización del análisis de resultados de consultas públicas digitales.

2. Solución propuesta

Entre las herramientas que actualmente se desarrollan, con potencial uso para el procesamiento de amplios cúmulos de datos textuales digitales, que pueden provenir por ejemplo de un sistema de consulta pública digital, podemos encontrar el modelado de tópicos (topic model), una técnica probabilística e informática que ha mostrado ser útil para el tratamiento de textos en la web, permitiendo inferir, analizar y comparar datos e información de distinta índole de manera automatizada.

En este sentido, destaca el desarrollo de la Asignación Latente de Dirichlet (LDA por sus siglas en inglés), que consiste en un modelo generativo probabilístico no supervisado para modelar grandes corpus de texto, y generar aleatoriamente los documentos que se observan en este corpus (Blei, Ng y Jordan, 2003). Este modelo, basado en conceptos de Modelos Bayesianos, permite inferir tópicos a partir de un conjunto de documentos, mediante la aplicación de una distribución a posteriori. Tales tópicos pueden ser entendidos como temas estructurantes del corpus analizado (por ejemplo las respuestas obtenidas en una consulta pública digital) y es factible emplearlos para organizar los documentos que constituyen el corpus, según los criterios que se definan como de interés.

El uso del LDA requiere sin embargo del desarrollo de una serie de herramientas digitales que permitan al usuario final (en este caso, entes del Estado venezolao que promuevan consultas públicas en diversas áreas de interés) interactuar con esta herramienta de una forma amigable que le facilite sistematizar y comprender los resultados de los procesos de consultas públicas.

3. Alcance del software propuesto

  • Un sistema que permita realizar una consulta pública de los proyectos del SIPES
  • Un módulo para el sistema de consulta que permita realizar el procesamiento de los datos obtenidos de la consulta, y posterior a esto su visualización en tópicos mediante el LDA

4. Descripción general de la arquitectura del software

En la imagen a continuación se describe la arquitectura del software

Arquitectura del Software

  • Se hace la definición/selección del corpus a ser tratado
  • Se le da el formato requerido para ser procesado por las herramientas
  • Se realiza el pre-procesamiento que se encarga de limpiar los corpus y tomar sólo las palabras relevantes para el análisis
  • Con el corpus pre-procesado se ejecuta el algoritmo LDA tantas veces como corpus necesitemos
  • Se configura la aplicación web con las rutas de los archivos resultantes del pre-procesamiento y LDA
  • Y por último se pueden visualizar los resultados en la interfaz web

5. Metodología de desarrollo

[En esta sección se indica la metodología a utilizar para guiar el proceso de desarrollo del software]

6. Plataforma de operación

  • Aplicación netamente web, para correr a través de un servidor cualquiera.

7. Plataforma de desarrollo

  • Python 2.7
  • Django 1.10

8. Licencias de código y documentación

[Se indica los tipos de licencias libres a utilizar tanto para el software como para su documentación]

Adjuntos (1)

Download all attachments as: .zip