Instalar y Configurar el Sistema de Modelado de Tópicos
Primero se debe crear un entorno virtual en python 2.7, una vez dentro del entorno clonamos el repositorio del proyecto.
git clone https://planificacion.cenditel.gob.ve/scm/git/modelado_topicos
Antes de proseguir es necesario instalar algunas dependencias, del requirement.txt
pip install -r requirements.txt
Una vez clonado nos metemos en la carpeta modelado_topicos/vsm y ejecutamos el comando:
python setup.py develop
Esto procederá a instalar las dependencias del vsm.
NOTA: Sobre el paquete nltk, es necesario instalar algunas dependencias que necesita el vsm, para esto entramos en python y ejecutamos lo siguiente
import nltk nltk.download()
Con este comando se desplegará una ventana como esta:
Y allí debemos seleccionar en la pestaña Corpora, el paquete stopwords y proceder a instalarlo
Si tenemos problemas con que el nltk.download(), es decir no nos muestra la pantalla para descargar, lo podemos hacer mediante python con el comando
python -m nltk.downloader stopwords
Una vez hecho esto, sólo debemos configurar la rutas en el settings a los directorios donde tenemos los datos resultantes de procesar con el LDA.
En la variable TOPIC_EXPLORER_PATH definimos la raíz donde están los archivos pre-procesados El la variable FILES_PATH definimos la ruta de la que extraeremos los archivos que se mostrarán en la interfaz En la variable LDA_DATA_PATH definimos los archivos de tópicos resultantes de correr el LDA En la variable LDA_CORPUS_FILE definimos el archivo .dat correspondiente a la corrida final del freeling En la variable LDA_CORPUS_DIR definimos la ruta de archivos pre-procesados
Es importante señalar, que la variable TOPICS contiene la configuración de los tópicos (en cantidad) que hayamos generado, esto varía de acuerdo a lo que generemos corriendo el LDA.
Ahora para tener todos archivos (en caso de no tenerlos), es necesario instalar las herramientas necesarias para realizar el pre-procesamiento.
1. Instalar y Configurar Freeling.
Primero se deben instalar las dependencias del freeling
sudo apt-get install libboost-regex-dev libicu-dev zlib1g-dev libboost-dev sudo apt-get install libboost-system-dev libboost-program-options-dev libboost-thread-dev
Obtener el tar.gz, en nuestro caso freeling-3.1.tar.gz o descargando de su página oficial
tar xzvf freeling-3.1.tar.gz cd freeling-3.1 autoreconf --install ./configure (Si no da ningun alerta proceden con el siguiente paso) make sudo make install
Si en el momento del make tenemos un error como este:
corrector/dicc2phon-dicc2phon.o: In function `_GLOBAL__sub_I_main': dicc2phon.cc:(.text.startup+0x2c): undefined reference to `boost::system::generic_category()' dicc2phon.cc:(.text.startup+0x36): undefined reference to `boost::system::generic_category()' dicc2phon.cc:(.text.startup+0x40): undefined reference to `boost::system::system_category()' collect2: error: ld returned 1 exit status
Lo podemos solventar ejecutando ./configure con los siguientes parámetros
./configure CXXFLAGS=-lboost_system CPPFLAGS=-lboost_system LIBS=-lboost_system
En el este enlace hay una descripción de los errores más comunes
Esto debió instalar en la ruta /usr/local/share/freeling
Es necesario también configurar una variable de entorno, la cual es utilizada por el freeling, primero debemos chequear si realmente no está configurada escribiendo en la consola echo $FREELINGSHARE, si no imprime nada la configuramos en el perfil de consola utilizando nuestro editor al gusto (vim,nano, etc) el archivo ~/.bashrc, y agregamos al final la linea:
export FREELINGSHARE="/usr/local/share/freeling/"
donde el valor de la variable corresponde a la ruta raíz del freeling, en caso que queramos que los cambios se hagan efectivos de inmediato podemos ejecutar export FREELINGSHARE="/usr/local/share/freeling/" en la consola y verificar que el cambio este hecho mediante echo $FREELINGSHARE.
NOTA: Si al ejecutar este comando en la consola:
/usr/local/bin/analyzer -f /usr/local/share/freeling/config/es.cfg
da el error LC_ALL: cannot change locale (en_US.UTF-8): No such file or directory. Es necesario ejecutar el comando sudo dpkg-reconfigure locales, y agregar el paquete en_US. UTF-8
2. Instalar el LDA
Lo primero que debemos hacer es descargar el archivo fuente de su página oficial
Una vez hecho esto procedemos a descomprimir el archivo
tar xzvf lda-c-dist.tar.gz cd lda-c-dist/ make
Con estos tres (3) pasos obtendríamos el ejecutable del lda.
Con esto tendríamos todo instalado, faltaría realizar el pre-procesamiento, ejecutar el algoritmo LDA y hacer los cambios en la configuración de la herramienta web para poder visualizar los resultados mediante
python manage.py runserver
Adjuntos (3)
-
nltk_1.png
(33.2 KB) -
added by rboet 7 años ago.
Instalación de nltk
-
nltk_2.png
(77.3 KB) -
added by rboet 7 años ago.
Selección del paquete en nltk
-
config.png
(75.2 KB) -
added by rboet 7 años ago.
Rutas de configuración del proyecto
Download all attachments as: .zip