wiki:ModeladoTopicos_2017/instalacion

Instalar y Configurar el Sistema de Modelado de Tópicos

Primero se debe crear un entorno virtual en python 2.7, una vez dentro del entorno clonamos el repositorio del proyecto.

git clone https://planificacion.cenditel.gob.ve/scm/git/modelado_topicos

Antes de proseguir es necesario instalar algunas dependencias, del requirement.txt

pip install -r requirements.txt

Una vez clonado nos metemos en la carpeta modelado_topicos/vsm y ejecutamos el comando:

python setup.py develop

Esto procederá a instalar las dependencias del vsm.

NOTA: Sobre el paquete nltk, es necesario instalar algunas dependencias que necesita el vsm, para esto entramos en python y ejecutamos lo siguiente

import nltk

nltk.download()

Con este comando se desplegará una ventana como esta:

Instalación de nltk

Y allí debemos seleccionar en la pestaña Corpora, el paquete stopwords y proceder a instalarlo

Selección del paquete en nltk

Si tenemos problemas con que el nltk.download(), es decir no nos muestra la pantalla para descargar, lo podemos hacer mediante python con el comando

python -m nltk.downloader stopwords

Una vez hecho esto, sólo debemos configurar la rutas en el settings a los directorios donde tenemos los datos resultantes de procesar con el LDA.

Rutas de configuración del proyecto

En la variable TOPIC_EXPLORER_PATH definimos la raíz donde están los archivos pre-procesados El la variable FILES_PATH definimos la ruta de la que extraeremos los archivos que se mostrarán en la interfaz En la variable LDA_DATA_PATH definimos los archivos de tópicos resultantes de correr el LDA En la variable LDA_CORPUS_FILE definimos el archivo .dat correspondiente a la corrida final del freeling En la variable LDA_CORPUS_DIR definimos la ruta de archivos pre-procesados

Es importante señalar, que la variable TOPICS contiene la configuración de los tópicos (en cantidad) que hayamos generado, esto varía de acuerdo a lo que generemos corriendo el LDA.

Ahora para tener todos archivos (en caso de no tenerlos), es necesario instalar las herramientas necesarias para realizar el pre-procesamiento.

1. Instalar y Configurar Freeling.

Primero se deben instalar las dependencias del freeling

sudo apt-get install libboost-regex-dev libicu-dev zlib1g-dev libboost-dev
sudo apt-get install libboost-system-dev libboost-program-options-dev libboost-thread-dev

Obtener el tar.gz, en nuestro caso freeling-3.1.tar.gz o descargando de su página oficial

tar xzvf freeling-3.1.tar.gz
cd freeling-3.1
autoreconf --install
./configure (Si no da ningun alerta proceden con el siguiente paso)
make
sudo make install

Si en el momento del make tenemos un error como este:

corrector/dicc2phon-dicc2phon.o: In function `_GLOBAL__sub_I_main':
dicc2phon.cc:(.text.startup+0x2c): undefined reference to `boost::system::generic_category()'
dicc2phon.cc:(.text.startup+0x36): undefined reference to `boost::system::generic_category()'
dicc2phon.cc:(.text.startup+0x40): undefined reference to `boost::system::system_category()'
collect2: error: ld returned 1 exit status

Lo podemos solventar ejecutando ./configure con los siguientes parámetros

./configure CXXFLAGS=-lboost_system CPPFLAGS=-lboost_system LIBS=-lboost_system

En el este enlace hay una descripción de los errores más comunes

Esto debió instalar en la ruta /usr/local/share/freeling

Es necesario también configurar una variable de entorno, la cual es utilizada por el freeling, primero debemos chequear si realmente no está configurada escribiendo en la consola echo $FREELINGSHARE, si no imprime nada la configuramos en el perfil de consola utilizando nuestro editor al gusto (vim,nano, etc) el archivo ~/.bashrc, y agregamos al final la linea:

export FREELINGSHARE="/usr/local/share/freeling/"

donde el valor de la variable corresponde a la ruta raíz del freeling, en caso que queramos que los cambios se hagan efectivos de inmediato podemos ejecutar export FREELINGSHARE="/usr/local/share/freeling/" en la consola y verificar que el cambio este hecho mediante echo $FREELINGSHARE.

NOTA: Si al ejecutar este comando en la consola:

/usr/local/bin/analyzer -f /usr/local/share/freeling/config/es.cfg

da el error LC_ALL: cannot change locale (en_US.UTF-8): No such file or directory. Es necesario ejecutar el comando sudo dpkg-reconfigure locales, y agregar el paquete en_US. UTF-8

2. Instalar el LDA

Lo primero que debemos hacer es descargar el archivo fuente de su página oficial

Una vez hecho esto procedemos a descomprimir el archivo

tar xzvf lda-c-dist.tar.gz
cd lda-c-dist/
make

Con estos tres (3) pasos obtendríamos el ejecutable del lda.

Con esto tendríamos todo instalado, faltaría realizar el pre-procesamiento, ejecutar el algoritmo LDA y hacer los cambios en la configuración de la herramienta web para poder visualizar los resultados mediante

python manage.py runserver
Last modified 7 años ago Modificado por última vez en fecha 24/04/2017 11:28:15

Adjuntos (3)

Download all attachments as: .zip