Conjunto 1a2167d en modelado_topicos


Ignorar:
Fecha y hora:
26/01/2016 16:50:38 (hace 8 años)
Autor:
Jorge Redondo Flames <jredondo@…>
Branches:
master, preprocesamiento, v1.0
Children:
485135c
Parents:
8ebf4a3
Mensaje:

Primera versión funcional de integración con lda-c

Ficheros:
4 editados

Leyenda

No modificado
Añadido
Eliminado
  • django_topic_explorer/settings.py

    r80f1533 r1a2167d  
    105105#URL_COMUN='http://192.168.12.126:8000/'
    106106## TOPIC EXPLORER SETTINGS
     107#TOPIC_EXPLORER_PATH = '/home/cenditel/Interpretacion/'
    107108TOPIC_EXPLORER_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/'
    108 #TOPIC_EXPLORER_PATH = '/home/cenditel/Interpretacion/'
    109109FILES_PATH = TOPIC_EXPLORER_PATH +'demo-data/corpus_propuestas/noaccent'
    110110MODELS_PATH = TOPIC_EXPLORER_PATH + 'demo-data/corpus_propuestas/models/'
     111#FILES_PATH = TOPIC_EXPLORER_PATH +'demo-data/ap/'
     112#MODELS_PATH = TOPIC_EXPLORER_PATH + 'demo-data/corpus_propuestas/lda2vsm_models/'
    111113CORPUS_FILE = MODELS_PATH + 'pp-nltk-en-freq5.npz'
     114#MODEL_PATTERN = MODELS_PATH + 'model.npz'
     115
    112116#CORPUS_FILE = MODELS_PATH + 'ap-nltk-en-freq5.npz'
    113 MODEL_PATTERN = MODELS_PATH + 'pp-nltk-en-freq5-LDA-K{0}-document-200.npz'
     117#MODEL_PATTERN = MODELS_PATH + 'pp-nltk-en-freq5-LDA-K{0}-document-200.npz'
    114118#MODEL_PATTERN = MODELS_PATH + 'ap-nltk-en-freq5-LDA-K{0}-document-20.npz'
    115119CONTEXT_TYPE = 'document'
    116 TOPICS = '10, 20, 30, 40, 50, 60, 70'
     120#TOPICS = '10, 20, 30, 40, 50, 60, 70'
    117121#TOPICS = '10, 20, 30, 40, 50, 60, 70, 80, 90, 100'
    118 #TOPICS = '10, 20, 30, 40, 50, 60'
     122TOPICS = '10, 20, 30, 40, 50, 60'
    119123CORPUS_NAME = 'Deafult'
    120124ICONS = 'link'
     
    125129DOC_URL_FORMAT = None
    126130
    127 
  • templates/topic_explorer/index.html

    rbd6e395 r1a2167d  
    129129
    130130$.getJSON('/topic_explorer/docs.json', function(data) {
     131  console.log(data);
    131132  $(".typeahead").typeahead({items: 12,
    132133    source: function(query, process) {
     
    284285var tops;
    285286d3.json(url, function(error, data) {
    286   console.log(data);
     287  console.log("DATA",data);
    287288  $('#status .bar').css('width', '50%').text('Loading topics...');
    288289  if (error) {
  • topic_explorer/views.py

    r431bd02 r1a2167d  
     1# coding: utf-8
     2
    13from django.shortcuts import render
    24
     
    810
    911from utils import colorlib
     12from ldac2vsm import *
    1013import itertools
    1114from vsm.corpus import Corpus
     
    2730#path = settings.PATH
    2831corpus_file = settings.CORPUS_FILE
    29 context_type = settings.CONTEXT_TYPE
    30 model_pattern = settings.MODEL_PATTERN
     32#context_type = settings.CONTEXT_TYPE
     33context_type = 'propesta'
     34#model_pattern = settings.MODEL_PATTERN
    3135topics = settings.TOPICS
    32 corpus_name = settings.CORPUS_NAME
     36#corpus_name = settings.CORPUS_NAME
    3337icons = settings.ICONS
    3438
     
    4044#global lda_m, lda_v
    4145
    42 lda_c = Corpus.load(corpus_file)
     46# Integración LDA-c topic_explorer
     47lda_c,lda_m = corpus_model()
     48#lda_c = Corpus.load(corpus_file)
     49#lda_c.save('/home/jredondo/tmp/corpus.npz')
     50lda_v = LDAViewer(lda_c, lda_m)
     51
    4352#lda_m = LCM.load(model_pattern.format(k))
    44 #lda_v = LDAViewer(lda_c, lda_m)
    4553label = lambda x: x
    4654
     
    6674
    6775def doc_csv(request, k_param,doc_id,threshold=0.2):
    68     lda_m = LCM.load(model_pattern.format(k_param))
    69     lda_v = LDAViewer(lda_c, lda_m)
     76    #lda_m = LCM.load(model_pattern.format(k_param))
     77    #lda_v = LDAViewer(lda_c, lda_m)
    7078    data = lda_v.sim_doc_doc(doc_id)
    7179
     
    7987def topic_json(request,k_param,topic_no, N=40):
    8088    #global lda_v
    81     lda_m = LCM.load(model_pattern.format(k_param))
    82     lda_v = LDAViewer(lda_c, lda_m)
     89    #lda_m = LCM.load(model_pattern.format(k_param))
     90    #lda_v = LDAViewer(lda_c, lda_m)
    8391    try:
    8492        N = int(request.query.n)
     
    171179def index(request):
    172180    global lda_m,lda_v
    173     lda_m = LCM.load(model_pattern.format(10))
    174     lda_v = LDAViewer(lda_c, lda_m)
     181    #lda_m = LCM.load(model_pattern.format(10))
     182    #lda_v = LDAViewer(lda_c, lda_m)
    175183    template_name = 'topic_explorer/index.html'
    176184    return render(request,template_name,
    177185        {'filename':None,
    178          'corpus_name' : corpus_name,
     186         #'corpus_name' : corpus_name,
    179187         'corpus_link' : corpus_link,
    180188         'context_type' : context_type,
     
    185193def visualize(request,k_param,filename=None,topic_no=None):
    186194    global lda_m,lda_v
    187     lda_m = LCM.load(model_pattern.format(k_param))
    188     lda_v = LDAViewer(lda_c, lda_m)
     195    #lda_m = LCM.load(model_pattern.format(k_param))
     196    #lda_v = LDAViewer(lda_c, lda_m)
    189197    template_name = 'topic_explorer/index.html'
    190198    return render(request,template_name,
     
    192200         'k_param':k_param,
    193201         'topic_no':topic_no,
    194          'corpus_name' : corpus_name,
     202         #'corpus_name' : corpus_name,
    195203         'corpus_link' : corpus_link,
    196204         'context_type' : context_type,
     
    221229            archivo.close()
    222230        except:
    223             text='No se encontro el documento'
     231            return dump_exception()
     232            texto='No se encontro el documento'
    224233        return render(request,self.template_name,
    225234                      {'topicos':topicos,
  • utils/ldac2vsm.py

    r80f1533 r1a2167d  
    33from vsm.corpus import Corpus
    44from vsm.model.ldacgsmulti import LdaCgsMulti
     5from vsm.viewer.ldagibbsviewer import LDAGibbsViewer as LDAViewer
    56
    67from vsm.model.ldafunctions import *
     
    89import numpy as np
    910
    10 
    11 path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/output/'
    12 #corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm_tmp/corpus.dat'
    13 corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/ap.dat'
    14 vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/vocab.txt'
     11path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/test50/'
     12corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/corpus.dat'
     13vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/vsm2ldac/vocab.txt'
     14corpus_dir = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/noaccent'
     15#path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/output/'
     16#corpus_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/ap.dat'
     17#vocab_file = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/ap/vocab.txt'
    1518
    1619def likelihood(path=path):
     
    99102  return compute_log_prob(c, z, wt, td)
    100103 
    101 if __name__=='__main__':
    102 
     104def corpus_model(path=path):
    103105  z,indices = word_assigments(path)
     106  zeta = []
     107  for item in z:
     108    zeta.extend(item)
    104109  b = beta(path)
    105110  v = vocab()
    106111  a = alpha_list(z,path)
    107   c = import_corpus(corpus_file,vocab_file)
    108   m = LdaCgsMulti(corpus=c,K=20,V=v,alpha=a,beta=b)
     112  c = import_corpus(corpusfilename=corpus_file, vocabfilename=vocab_file, path=corpus_dir ,context_type='propesta')
     113  alpha = []
     114
     115  for i in range(len(b)):
     116    alpha.append(a)
     117  alpha = (np.array(alpha, dtype=np.float).reshape(len(alpha),len(alpha[0])))
     118
     119  b = (np.array(b, dtype=np.float).reshape(len(b[0]),len(b)))
     120  m = LdaCgsMulti(corpus=c,
     121                  context_type='propesta',
     122                  K=50,
     123                  V=v,
     124                  #alpha=alpha,
     125                  #beta=b,
     126                  Z=np.array(zeta))
    109127
    110128
     129  return c,m
     130
     131if __name__=='__main__':
     132  print "******************** MAIN **********************"
     133  save_path = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/topic-explorer/demo-data/corpus_propuestas/lda2vsm_models/'
     134  c,m = corpus_model()
     135  #c.save(save_path+'corpus.npz')
     136  #save_lda(m,save_path+'model.npz')
Nota: Vea TracChangeset para ayuda en el uso del visor de conjuntos de cambios.