Navegación de contexto

Conjunto 485135c en modelado_topicos

Fecha y hora:

29/01/2016 10:08:40 (hace 8 años)

Autor:

Jorge Redondo Flames <jredondo@…>

Branches:

master, preprocesamiento, v1.0

Children:

Parents:

Mensaje:

Multiples tópicos (Topic-explorer + LDA-C)

Ficheros:

: 4 editados

django_topic_explorer/settings.py (modificado) (2 diferencias)
topic_explorer/urls.py (modificado) (2 diferencias)
topic_explorer/views.py (modificado) (7 diferencias)
utils/ldac2vsm.py (modificado) (10 diferencias)

Leyenda

: No modificado
: Añadido
: Eliminado

django_topic_explorer/settings.py

-                      r1a2167d
+                      r485135c
 #MODELS_PATH = TOPIC_EXPLORER_PATH + 'demo-data/corpus_propuestas/lda2vsm_models/'
 CORPUS_FILE = MODELS_PATH + 'pp-nltk-en-freq5.npz'
+LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/test{0}/'
+LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/corpus.dat'
+LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/vocab.txt'
+LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/pp'
 #MODEL_PATTERN = MODELS_PATH + 'model.npz'
 …
 #TOPICS = '10, 20, 30, 40, 50, 60, 70'
 #TOPICS = '10, 20, 30, 40, 50, 60, 70, 80, 90, 100'
 TOPICS = '10, 20, 30, 40, 50, 60'
+TOPICS = '15, 30, 40, 50, 60, 70, 80, 90'
 CORPUS_NAME = 'Deafult'
 ICONS = 'link'

topic_explorer/urls.py

-                      rbd6e395
+                      r485135c
 urlpatterns = patterns('',
     url(r'^doc_topics/(?P<doc_id>\d+)/$', doc_topic_csv, name='doc_topic_csv'),
     url(r'^docs/(?P<k_param>\d+)/(?P<doc_id>.+)/$',doc_csv , name='doc_csv'),
     url(r'^topics/(?P<k_param>\d+)/(?P<topic_no>\d+)/$', topic_json , name='topic_json'),
+    url(r'^docs/(?P<k>\d+)/(?P<doc_id>.+)/$',doc_csv , name='doc_csv'),
+    url(r'^topics/(?P<k>\d+)/(?P<topic_no>\d+)/$', topic_json , name='topic_json'),
     url(r'^docs_topics/(?P<doc_id>.+)/$', doc_topics , name='doc_topics'),
     url(r'^topics.json/$', topics , name='topics'),
 …
     url(r'^icons/$', icons , name='icons'),
     url(r'^$', index , name='index'),
     url(r'^doc/(?P<k_param>\d+)/(?P<filename>.+)/$', visualize , name='visualize'),
     url(r'^topic/(?P<k_param>\d+)/(?P<topic_no>\d+)/$', visualize , name='visualize'),
+    url(r'^doc/(?P<k>\d+)/(?P<filename>.+)/$', visualize , name='visualize'),
+    url(r'^topic/(?P<k>\d+)/(?P<topic_no>\d+)/$', visualize , name='visualize'),
     url(r'^see_topic',IrTopic.as_view(),name='see_topic'),

topic_explorer/views.py

-                      r1a2167d
+                      r485135c
 from utils import colorlib
 from ldac2vsm import *
+from utils.ldac2vsm import *
 import itertools
 from vsm.corpus import Corpus
 …
 from django.utils.safestring import mark_safe
 from django_topic_explorer.settings import FILES_PATH
+from django_topic_explorer.settings import LDA_DATA_PATH
+from django_topic_explorer.settings import LDA_CORPUS_FILE
+from django_topic_explorer.settings import LDA_VOCAB_FILE
+from django_topic_explorer.settings import LDA_CORPUS_DIR
 #path = settings.PATH
 …
 doc_url_format = settings.DOC_URL_FORMAT
+#global lda_m, lda_v
+global k_param
+k_param = None
+global lda_c,lda_m, lda_v
 # IntegraciÃ³n LDA-c topic_explorer
+lda_c,lda_m = corpus_model()
+lda_c,lda_m = corpus_model(50,LDA_DATA_PATH.format(50),
+                           LDA_CORPUS_FILE,
+                           LDA_VOCAB_FILE,
+                           LDA_CORPUS_DIR)
 #lda_c = Corpus.load(corpus_file)
 #lda_c.save('/home/jredondo/tmp/corpus.npz')
 …
 def doc_topic_csv(request, doc_id):
+    data = lda_v.doc_topics(doc_id)
+    output=StringIO()
+    writer = csv.writer(output)
+    writer.writerow(['topic','prob'])
+    writer.writerows([(t, "%6f" % p) for t,p in data])
+    return HttpResponse(output.getvalue())
+def doc_csv(request, k_param,doc_id,threshold=0.2):
+    #lda_m = LCM.load(model_pattern.format(k_param))
+    global lda_v
+    try:
+        data = lda_v.doc_topics(doc_id)
+        output=StringIO()
+        writer = csv.writer(output)
+        writer.writerow(['topic','prob'])
+        writer.writerows([(t, "%6f" % p) for t,p in data])
+        return HttpResponse(output.getvalue())
+    except:
+        return dump_exception()
+def doc_csv(request, k,doc_id,threshold=0.2):
+    global k_param, lda_c, lda_m, lda_v
+    try:
+        if k != k_param:
+            k_param = k
+            lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+                               LDA_CORPUS_FILE,
+                               LDA_VOCAB_FILE,
+                               LDA_CORPUS_DIR)
+            lda_v = LDAViewer(lda_c, lda_m)
+        #lda_m = LCM.load(model_pattern.format(k_param))
+        #lda_v = LDAViewer(lda_c, lda_m)
+        data = lda_v.sim_doc_doc(doc_id)
+        output=StringIO()
+        writer = csv.writer(output)
+        writer.writerow(['doc','prob'])
+        writer.writerows([(d, "%6f" % p) for d,p in data if p > threshold])
+        return HttpResponse(output.getvalue())
+    except:
+        return dump_exception()
+def topic_json(request,k,topic_no, N=40):
+    global k_param, lda_c, lda_m, lda_v
+    try:
+        if k != k_param:
+            k_param = k
+            lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+                               LDA_CORPUS_FILE,
+                               LDA_VOCAB_FILE,
+                               LDA_CORPUS_DIR)
+            lda_v = LDAViewer(lda_c, lda_m)
+        #global lda_v
+        #lda_m = LCM.load(model_pattern.format(k_param))
+        #lda_v = LDAViewer(lda_c, lda_m)
+        try:
+            N = int(request.query.n)
+        except:
+            pass
+        if N > 0:
+            data = lda_v.dist_top_doc([int(topic_no)])[:N]
+        else:
+            data = lda_v.dist_top_doc([int(topic_no)])[N:]
+            data = reversed(data)
+        docs = [doc for doc,prob in data]
+        doc_topics_mat = lda_v.doc_topics(docs)
+        js = []
+        for doc_prob, topics in zip(data, doc_topics_mat):
+            doc, prob = doc_prob
+            js.append({'doc' : doc, 'label': label(doc), 'prob' : 1-prob,
+                'topics' : dict([(str(t), p) for t,p in topics])})
+        return HttpResponse(json.dumps(js))
+    except:
+        return dump_exception()
+def doc_topics(request,doc_id, N=40):
+    global lda_v
+    #lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+    #                           LDA_CORPUS_FILE,
+    #                           LDA_VOCAB_FILE,
+    #                           LDA_CORPUS_DIR)
     #lda_v = LDAViewer(lda_c, lda_m)
-    data = lda_v.sim_doc_doc(doc_id)
-    output=StringIO()
-    writer = csv.writer(output)
-    writer.writerow(['doc','prob'])
-    writer.writerows([(d, "%6f" % p) for d,p in data if p > threshold])
-    return HttpResponse(output.getvalue())
-def topic_json(request,k_param,topic_no, N=40):
-    #global lda_v
-    #lda_m = LCM.load(model_pattern.format(k_param))
-    #lda_v = LDAViewer(lda_c, lda_m)
-    try:
-        N = int(request.query.n)
-    except:
-        pass
-    if N > 0:
-        data = lda_v.dist_top_doc([int(topic_no)])[:N]
-    else:
-        data = lda_v.dist_top_doc([int(topic_no)])[N:]
-        data = reversed(data)
-    docs = [doc for doc,prob in data]
-    doc_topics_mat = lda_v.doc_topics(docs)
-    js = []
-    for doc_prob, topics in zip(data, doc_topics_mat):
-        doc, prob = doc_prob
-        js.append({'doc' : doc, 'label': label(doc), 'prob' : 1-prob,
-            'topics' : dict([(str(t), p) for t,p in topics])})
-    return HttpResponse(json.dumps(js))
-def doc_topics(request,doc_id, N=40):
     try:
         try:
 …
 def topics(request):
+    try:
+        js=populateJson()
+    global lda_v
+    try:
+        #lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+        #                       LDA_CORPUS_FILE,
+        #                       LDA_VOCAB_FILE,
+        #                       LDA_CORPUS_DIR)
+        #lda_v = LDAViewer(lda_c, lda_m)
+        js=populateJson(lda_v)
         return HttpResponse(json.dumps(js))
     except:
         return dump_exception()
 def populateJson():
+def populateJson(lda_v):
     # populate entropy values
     data = lda_v.topic_oscillations()
 …
 def docs(request):
+    try:
+    global lda_v
+    try:
+        #lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+        #                       LDA_CORPUS_FILE,
+        #                       LDA_VOCAB_FILE,
+        #                       LDA_CORPUS_DIR)
+        #lda_v = LDAViewer(lda_c, lda_m)
         docs = lda_v.corpus.view_metadata(context_type)[doc_label_name(context_type)]
         js = list()
 …
 def index(request):
+    global lda_m,lda_v
+    #lda_m = LCM.load(model_pattern.format(10))
+    #lda_v = LDAViewer(lda_c, lda_m)
+    template_name = 'topic_explorer/index.html'
+    return render(request,template_name,
+        {'filename':None,
+         #'corpus_name' : corpus_name,
+         'corpus_link' : corpus_link,
+         'context_type' : context_type,
+         'topics_range' : topics_range,
+         'doc_title_format' : doc_title_format,
+         'doc_url_format' : doc_url_format})
+def visualize(request,k_param,filename=None,topic_no=None):
+    global lda_m,lda_v
+    #lda_m = LCM.load(model_pattern.format(k_param))
+    #lda_v = LDAViewer(lda_c, lda_m)
+    template_name = 'topic_explorer/index.html'
+    return render(request,template_name,
+        {'filename':filename,
+         'k_param':k_param,
+         'topic_no':topic_no,
+         #'corpus_name' : corpus_name,
+         'corpus_link' : corpus_link,
+         'context_type' : context_type,
+         'topics_range' : topics_range,
+         'doc_title_format' : doc_title_format,
+         'doc_url_format' : doc_url_format})
+    try:
+        #global lda_m,lda_v
+        #lda_m = LCM.load(model_pattern.format(10))
+        #lda_v = LDAViewer(lda_c, lda_m)
+        template_name = 'topic_explorer/index.html'
+        return render(request,template_name,
+            {'filename':None,
+             #'corpus_name' : corpus_name,
+             'corpus_link' : corpus_link,
+             'context_type' : context_type,
+             'topics_range' : topics_range,
+             'doc_title_format' : doc_title_format,
+             'doc_url_format' : doc_url_format})
+    except:
+        return dump_exception()
+def visualize(request,k,filename=None,topic_no=None):
+    global k_param,lda_c,lda_m,lda_v
+    try:
+        if k != k_param:
+            k_param = k
+            lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+                               LDA_CORPUS_FILE,
+                               LDA_VOCAB_FILE,
+                               LDA_CORPUS_DIR)
+            lda_v = LDAViewer(lda_c, lda_m)
+        #lda_m = LCM.load(model_pattern.format(k_param))
+        #lda_v = LDAViewer(lda_c, lda_m)
+        template_name = 'topic_explorer/index.html'
+        return render(request,template_name,
+            {'filename':filename,
+             'k_param':k_param,
+             'topic_no':topic_no,
+             #'corpus_name' : corpus_name,
+             'corpus_link' : corpus_link,
+             'context_type' : context_type,
+             'topics_range' : topics_range,
+             'doc_title_format' : doc_title_format,
+             'doc_url_format' : doc_url_format})
+    except:
+        return dump_exception()
 class IrTopic(TemplateView):
     template_name='topic_explorer/verTopico.html'
     def post(self, request, *args, **kwargs):
+        global lda_v
+        #global k_param
+        #lda_c,lda_m = corpus_model(k_param,LDA_DATA_PATH.format(k_param),
+        #                       LDA_CORPUS_FILE,
+        #                       LDA_VOCAB_FILE,
+        #                       LDA_CORPUS_DIR)
+        #lda_v = LDAViewer(lda_c, lda_m)
         propuesta = request.POST['nombre_propuesta']
         #url = reverse('verTopicos')
         #Obtnener json
         Topic_Json = populateJson()
+        Topic_Json = populateJson(lda_v)
         Topic_Json = json.dumps(Topic_Json)
         topicos = json.loads(Topic_Json)

utils/ldac2vsm.py

-                      r1a2167d
+                      r485135c
 import numpy as np
+path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/test50/'
+corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/corpus.dat'
+vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/vocab.txt'
+corpus_dir = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/noaccent'
+#path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/test50/'
+#path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/test15/'
+#corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/corpus.dat'
+#vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/vocab.txt'
+#corpus_dir = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/pp'
 #path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/output/'
 #corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/ap.dat'
 #vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/vocab.txt'
 def likelihood(path=path):
+def likelihood(path):
   with open(path + 'likelihood.dat') as f:
     lh = f.readlines()
   return np.array([item.strip('\n').split('\t')[0] for item in lh],dtype=np.float)
 def beta(path=path):
+def beta(path):
   b = []
   with open(path + 'final.beta') as f:
 …
 def alpha(path=path):
+def alpha(path):
   with open(path + 'final.other') as f:
     a = f.readlines()
   return float(a[2].split()[1])
 def word_assigments(path=path):
+def word_assigments(path):
   indices_tmp = []
   z_tmp = []
 …
   return z,indices
 def corpus(file=corpus_file):
+def corpus(file):
   with open(file) as f:
     c = f.readlines()
 …
   return c,indices
 def vocab(file=vocab_file):
+def vocab(file):
   with open(file) as f:
     v = f.readlines()
   return len(v)
 def alpha_list(z,path=path):
+def alpha_list(z,path):
   a = alpha(path)
   a_list = []
 …
 def top_doc(path=path):
+def top_doc(path):
   z,indices = word_assigments(path)
   b = beta(path)
 …
   return compute_top_doc(z, len(b), np.array(a_list))
 def word_top(path=path):
+def word_top(path):
   c,indices = corpus()
   z,indices = word_assigments(path)
 …
   return compute_word_top(c, z, len(b), v, np.transpose(b))
 def log_prob(path=path):
+def log_prob(path):
   wt =  word_top(path)
   td = top_doc(path)
 …
   return compute_log_prob(c, z, wt, td)
 def corpus_model(path=path):
+def corpus_model(k_param,path,corpus_file,vocab_file,corpus_dir):
   z,indices = word_assigments(path)
   zeta = []
 …
     zeta.extend(item)
   b = beta(path)
   v = vocab()
+  v = vocab(vocab_file)
   a = alpha_list(z,path)
   c = import_corpus(corpusfilename=corpus_file, vocabfilename=vocab_file, path=corpus_dir ,context_type='propesta')
 …
   m = LdaCgsMulti(corpus=c,
                   context_type='propesta',
+                  K=50,
+                  #K=50,
+                  K=int(k_param),
                   V=v,
                   #alpha=alpha,

Nota: Vea TracChangeset para ayuda en el uso del visor de conjuntos de cambios.

Descargar en otros formatos: