Conjunto ab6d14b en modelado_topicos


Ignorar:
Fecha y hora:
29/06/2016 11:49:10 (hace 8 años)
Autor:
Jorge Redondo Flames <jredondo@…>
Branches:
preprocesamiento
Parents:
b503c14
Mensaje:

Primera corrida con corpus de medios

Ficheros:
3 editados

Leyenda

No modificado
Añadido
Eliminado
  • django_topic_explorer/settings.py

    rb503c14 rab6d14b  
    102102
    103103### TOPIC EXPLORER SETTINGS (medios)
    104 #FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/noaccent'
    105 #LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/medios{0}/'
    106 #LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/lda/corpus.dat'
    107 #LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/lda/vocab.txt'
    108 #LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/pp'
     104FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/pp'
     105LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/medios_digitales_{0}/'
     106LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/lda/corpus.dat'
     107LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/lda/vocab.txt'
     108LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/pp'
    109109
    110110### TOPIC EXPLORER SETTINGS (patria)
    111 FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/noaccent'
    112 LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/patria{0}/'
    113 LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/corpus.dat'
    114 LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/vocab.txt'
    115 LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/pp'
     111#FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/noaccent'
     112#LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/patria{0}/'
     113#LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/corpus.dat'
     114#LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/vocab.txt'
     115#LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/pp'
    116116
    117117
    118118CONTEXT_TYPE = 'document'
    119 TOPICS = '10, 20, 30, 40, 50, 60, 70, 80, 90'
     119TOPICS = '5, 10, 20, 30, 40, 50, 60, 70, 80, 90'
    120120CORPUS_NAME = 'Deafult'
    121121ICONS = 'link'
  • topic_explorer/views.py

    rb503c14 rab6d14b  
    5353
    5454# Integración LDA-c topic_explorer
    55 lda_c,lda_m = corpus_model(30,LDA_DATA_PATH.format(30),
     55lda_c,lda_m = corpus_model(10,LDA_DATA_PATH.format(10),
    5656                           LDA_CORPUS_FILE,
    5757                           LDA_VOCAB_FILE,
  • utils/freeling.py

    rb503c14 rab6d14b  
    103103        try:
    104104            #w = item.split(' ')[0].strip(' *+.,?¿!¡":;-=/$@#“”()[]{}')
     105            # Lista de verbos principales sin carga semántica
     106            verbs_list = ['existir','hacer','deber','tener']
     107            corpus_verbs = []
     108            corpus_verbs_nouns = ['poder']
     109
     110            # Fuera los verbos auxiliares y semiauxiliares:
     111            if item.split(' ')[2].startswith('VA') or item.split(' ')[2].startswith('VS') or item.split(' ')[1] in verbs_list :
     112                continue;
    105113            # Escoger original o raíz
    106114            w = item.split(' ')[1]
     
    188196    files_to_lower(path_orig,lower_corpus_path)
    189197 
    190     file_words_pp,corpus_words = preprocess(lower_corpus_path,do_fl=True)
     198    file_words_pp,corpus_words = preprocess(lower_corpus_path,do_fl=False)
    191199
    192200    # Plan de la patria
    193     exclude_words = ['descripcion','justificacion','construccion','desarrollo','comunidad','comunal','proyecto','prueblo','desarrollar','mismo','nacional','pueblo','sistema','produccion']
    194     #exclude_words = [u'tener',u'mismo',u'informo',u'indico',u'aseguro',u'anuncio',u'afirmo',u'sido',u'dia',u'dias',u'dijo',u'presidente',u'gobierno',u'solo',u'parte',u'asimismo',u'asi',u'via',u'debe',u'segun',u'estamos',u'esta',u'estan',u'este',u'estos',u'mas',u'pais',u'años',u'año',u'ahora',u'tener',u'tiene',u'tienen',u'tuvo',u'tendria',u'tendrian',u'hace',u'hizo',u'habia',u'habian',u'hacer',u'haber',u'ahora',u'nuevo',u'aun',u'puede',u'casi',u'forma',u'tambien',u'ademas',u'dejar',u'admitio',u'actual',u'persona',u'personas',u'mejor',u'entonces',u'pueden',u'podrian',u'pudieran',u'grupo',u'mes',u'meses',u'momento','momentos',u'manera',u'maneras',u'señalo',u'estuvo',u'estuvieron',u'agrego','estado','particular','aqui','pase','paso','podra','dejo','foto','cerca','caso','gran','grandes','nueva','nunca','nacional','venezuela','informacion','pueblo','señala','estados','pueblo']
     201    #exclude_words = ['descripcion','justificacion','construccion','desarrollo','comunidad','comunal','proyecto','prueblo','desarrollar','mismo','nacional','pueblo','sistema','produccion']
     202    exclude_words = [u'tener',u'mismo',u'informo',u'indico',u'aseguro',u'anuncio',u'afirmo',u'sido',u'dia',u'dias',u'dijo',u'presidente',u'gobierno',u'solo',u'parte',u'asimismo',u'asi',u'via',u'debe',u'segun',u'estamos',u'esta',u'estan',u'este',u'estos',u'mas',u'pais',u'años',u'año',u'ahora',u'tener',u'tiene',u'tienen',u'tuvo',u'tendria',u'tendrian',u'hace',u'hizo',u'habia',u'habian',u'hacer',u'haber',u'ahora',u'nuevo',u'aun',u'puede',u'casi',u'forma',u'tambien',u'ademas',u'dejar',u'admitio',u'actual',u'persona',u'personas',u'mejor',u'entonces',u'pueden',u'podrian',u'pudieran',u'grupo',u'mes',u'meses',u'momento',u'momentos',u'manera',u'maneras',u'señalo',u'estuvo',u'estuvieron',u'agrego',u'estado',u'particular',u'aqui',u'pase',u'paso',u'podra',u'dejo',u'foto',u'cerca',u'caso',u'gran',u'grandes',u'nueva',u'nunca',u'nacional',u'venezuela',u'informacion',u'pueblo',u'señala',u'estados',u'pueblo']
     203    exclude_sust = [u'pais',u'venezuela',u'año',u'dia',u'caracas',u'ayer',u'vena']
     204    exclude_adj = [u'venezolano']
     205    exclude_verb = [u'haber',u'decir',u'hablar',u'explicar',u'indicar',u'asegurar',u'aseverar',u'anunciar',u'realizar',u'informar',u'calificar',u'poner',u'querer',u'presentar',u'seguir',u'llevar',u'expresar',u'manifestar',u'considerar',u'afirmar',u'destacar',u'señalar',u'referir',u'llamar',u'agregar',u'publicar',u'poder']
     206
     207    exclude_words += exclude_sust + exclude_adj + exclude_verb
    195208    excluded = open(corpus_path+'excluded.txt','w','utf-8-sig')
    196209    added_files = []
Nota: Vea TracChangeset para ayuda en el uso del visor de conjuntos de cambios.