Navegación de contexto

Conjunto 1a2167d en modelado_topicos

Fecha y hora:

26/01/2016 16:50:38 (hace 8 años)

Autor:

Jorge Redondo Flames <jredondo@…>

Branches:

master, preprocesamiento, v1.0

Children:

485135c

Parents:

8ebf4a3

Mensaje:

Primera versión funcional de integración con lda-c

Ficheros:

: 4 editados

django_topic_explorer/settings.py (modificado) (2 diferencias)
templates/topic_explorer/index.html (modificado) (2 diferencias)
topic_explorer/views.py (modificado) (10 diferencias)
utils/ldac2vsm.py (modificado) (3 diferencias)

Leyenda

: No modificado
: Añadido
: Eliminado

django_topic_explorer/settings.py

-                      r80f1533
+                      r1a2167d
 #URL_COMUN='http://192.168.12.126:8000/'
 ## TOPIC EXPLORER SETTINGS
+#TOPIC_EXPLORER_PATH = '/home/cenditel/Interpretacion/'
 TOPIC_EXPLORER_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/'
-#TOPIC_EXPLORER_PATH = '/home/cenditel/Interpretacion/'
 FILES_PATH = TOPIC_EXPLORER_PATH +'demo-data/corpus_propuestas/noaccent'
 MODELS_PATH = TOPIC_EXPLORER_PATH + 'demo-data/corpus_propuestas/models/'
+#FILES_PATH = TOPIC_EXPLORER_PATH +'demo-data/ap/'
+#MODELS_PATH = TOPIC_EXPLORER_PATH + 'demo-data/corpus_propuestas/lda2vsm_models/'
 CORPUS_FILE = MODELS_PATH + 'pp-nltk-en-freq5.npz'
+#MODEL_PATTERN = MODELS_PATH + 'model.npz'
 #CORPUS_FILE = MODELS_PATH + 'ap-nltk-en-freq5.npz'
 MODEL_PATTERN = MODELS_PATH + 'pp-nltk-en-freq5-LDA-K{0}-document-200.npz'
+#MODEL_PATTERN = MODELS_PATH + 'pp-nltk-en-freq5-LDA-K{0}-document-200.npz'
 #MODEL_PATTERN = MODELS_PATH + 'ap-nltk-en-freq5-LDA-K{0}-document-20.npz'
 CONTEXT_TYPE = 'document'
 TOPICS = '10, 20, 30, 40, 50, 60, 70'
+#TOPICS = '10, 20, 30, 40, 50, 60, 70'
 #TOPICS = '10, 20, 30, 40, 50, 60, 70, 80, 90, 100'
 #TOPICS = '10, 20, 30, 40, 50, 60'
+TOPICS = '10, 20, 30, 40, 50, 60'
 CORPUS_NAME = 'Deafult'
 ICONS = 'link'
 …
 DOC_URL_FORMAT = None

templates/topic_explorer/index.html

-                      rbd6e395
+                      r1a2167d
 $.getJSON('/topic_explorer/docs.json', function(data) {
+  console.log(data);
   $(".typeahead").typeahead({items: 12,
     source: function(query, process) {
 …
 var tops;
 d3.json(url, function(error, data) {
   console.log(data);
+  console.log("DATA",data);
   $('#status .bar').css('width', '50%').text('Loading topics...');
   if (error) {

topic_explorer/views.py

-                      r431bd02
+                      r1a2167d
+# coding: utf-8
 from django.shortcuts import render
 …
 from utils import colorlib
+from ldac2vsm import *
 import itertools
 from vsm.corpus import Corpus
 …
 #path = settings.PATH
 corpus_file = settings.CORPUS_FILE
+context_type = settings.CONTEXT_TYPE
+model_pattern = settings.MODEL_PATTERN
+#context_type = settings.CONTEXT_TYPE
+context_type = 'propesta'
+#model_pattern = settings.MODEL_PATTERN
 topics = settings.TOPICS
 corpus_name = settings.CORPUS_NAME
+#corpus_name = settings.CORPUS_NAME
 icons = settings.ICONS
 …
 #global lda_m, lda_v
+lda_c = Corpus.load(corpus_file)
+# IntegraciÃ³n LDA-c topic_explorer
+lda_c,lda_m = corpus_model()
+#lda_c = Corpus.load(corpus_file)
+#lda_c.save('/home/jredondo/tmp/corpus.npz')
+lda_v = LDAViewer(lda_c, lda_m)
 #lda_m = LCM.load(model_pattern.format(k))
-#lda_v = LDAViewer(lda_c, lda_m)
 label = lambda x: x
 …
 def doc_csv(request, k_param,doc_id,threshold=0.2):
     lda_m = LCM.load(model_pattern.format(k_param))
     lda_v = LDAViewer(lda_c, lda_m)
+    #lda_m = LCM.load(model_pattern.format(k_param))
+    #lda_v = LDAViewer(lda_c, lda_m)
     data = lda_v.sim_doc_doc(doc_id)
 …
 def topic_json(request,k_param,topic_no, N=40):
     #global lda_v
     lda_m = LCM.load(model_pattern.format(k_param))
     lda_v = LDAViewer(lda_c, lda_m)
+    #lda_m = LCM.load(model_pattern.format(k_param))
+    #lda_v = LDAViewer(lda_c, lda_m)
     try:
         N = int(request.query.n)
 …
 def index(request):
     global lda_m,lda_v
     lda_m = LCM.load(model_pattern.format(10))
     lda_v = LDAViewer(lda_c, lda_m)
+    #lda_m = LCM.load(model_pattern.format(10))
+    #lda_v = LDAViewer(lda_c, lda_m)
     template_name = 'topic_explorer/index.html'
     return render(request,template_name,
         {'filename':None,
          'corpus_name' : corpus_name,
+         #'corpus_name' : corpus_name,
          'corpus_link' : corpus_link,
          'context_type' : context_type,
 …
 def visualize(request,k_param,filename=None,topic_no=None):
     global lda_m,lda_v
     lda_m = LCM.load(model_pattern.format(k_param))
     lda_v = LDAViewer(lda_c, lda_m)
+    #lda_m = LCM.load(model_pattern.format(k_param))
+    #lda_v = LDAViewer(lda_c, lda_m)
     template_name = 'topic_explorer/index.html'
     return render(request,template_name,
 …
          'k_param':k_param,
          'topic_no':topic_no,
          'corpus_name' : corpus_name,
+         #'corpus_name' : corpus_name,
          'corpus_link' : corpus_link,
          'context_type' : context_type,
 …
             archivo.close()
         except:
+            text='No se encontro el documento'
+            return dump_exception()
+            texto='No se encontro el documento'
         return render(request,self.template_name,
                       {'topicos':topicos,

utils/ldac2vsm.py

-                      r80f1533
+                      r1a2167d
 from vsm.corpus import Corpus
 from vsm.model.ldacgsmulti import LdaCgsMulti
+from vsm.viewer.ldagibbsviewer import LDAGibbsViewer as LDAViewer
 from vsm.model.ldafunctions import *
 …
 import numpy as np
+path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/output/'
+#corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm_tmp/corpus.dat'
+corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/ap.dat'
+vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/vocab.txt'
+path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/test50/'
+corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/corpus.dat'
+vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/vocab.txt'
+corpus_dir = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/noaccent'
+#path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/output/'
+#corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/ap.dat'
+#vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/vocab.txt'
 def likelihood(path=path):
 …
   return compute_log_prob(c, z, wt, td)
+if __name__=='__main__':
+def corpus_model(path=path):
   z,indices = word_assigments(path)
+  zeta = []
+  for item in z:
+    zeta.extend(item)
   b = beta(path)
   v = vocab()
   a = alpha_list(z,path)
+  c = import_corpus(corpus_file,vocab_file)
+  m = LdaCgsMulti(corpus=c,K=20,V=v,alpha=a,beta=b)
+  c = import_corpus(corpusfilename=corpus_file, vocabfilename=vocab_file, path=corpus_dir ,context_type='propesta')
+  alpha = []
+  for i in range(len(b)):
+    alpha.append(a)
+  alpha = (np.array(alpha, dtype=np.float).reshape(len(alpha),len(alpha[0])))
+  b = (np.array(b, dtype=np.float).reshape(len(b[0]),len(b)))
+  m = LdaCgsMulti(corpus=c,
+                  context_type='propesta',
+                  K=50,
+                  V=v,
+                  #alpha=alpha,
+                  #beta=b,
+                  Z=np.array(zeta))
+  return c,m
+if __name__=='__main__':
+  print "******************** MAIN **********************"
+  save_path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/lda2vsm_models/'
+  c,m = corpus_model()
+  #c.save(save_path+'corpus.npz')
+  #save_lda(m,save_path+'model.npz')

Nota: Vea TracChangeset para ayuda en el uso del visor de conjuntos de cambios.