Conjunto ab6d14b en modelado_topicos
- Fecha y hora:
- 29/06/2016 11:49:10 (hace 8 años)
- Branches:
- preprocesamiento
- Parents:
- b503c14
- Ficheros:
-
- 3 editados
Leyenda
- No modificado
- Añadido
- Eliminado
-
django_topic_explorer/settings.py
rb503c14 rab6d14b 102 102 103 103 ### TOPIC EXPLORER SETTINGS (medios) 104 #FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/noaccent'105 #LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/medios{0}/'106 #LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/lda/corpus.dat'107 #LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/lda/vocab.txt'108 #LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios/pp'104 FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/pp' 105 LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/medios_digitales_{0}/' 106 LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/lda/corpus.dat' 107 LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/lda/vocab.txt' 108 LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/medios_13_06_2016/todos/pp' 109 109 110 110 ### TOPIC EXPLORER SETTINGS (patria) 111 FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/noaccent'112 LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/patria{0}/'113 LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/corpus.dat'114 LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/vocab.txt'115 LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/pp'111 #FILES_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/noaccent' 112 #LDA_DATA_PATH = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/lda-blei/lda-c-dist/patria{0}/' 113 #LDA_CORPUS_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/corpus.dat' 114 #LDA_VOCAB_FILE = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/lda/vocab.txt' 115 #LDA_CORPUS_DIR = '/home/jredondo/Proyectos/Analisis_del_Discurso/src/data/corpus_propuestas/pp' 116 116 117 117 118 118 CONTEXT_TYPE = 'document' 119 TOPICS = ' 10, 20, 30, 40, 50, 60, 70, 80, 90'119 TOPICS = '5, 10, 20, 30, 40, 50, 60, 70, 80, 90' 120 120 CORPUS_NAME = 'Deafult' 121 121 ICONS = 'link' -
topic_explorer/views.py
rb503c14 rab6d14b 53 53 54 54 # Integración LDA-c topic_explorer 55 lda_c,lda_m = corpus_model( 30,LDA_DATA_PATH.format(30),55 lda_c,lda_m = corpus_model(10,LDA_DATA_PATH.format(10), 56 56 LDA_CORPUS_FILE, 57 57 LDA_VOCAB_FILE, -
utils/freeling.py
rb503c14 rab6d14b 103 103 try: 104 104 #w = item.split(' ')[0].strip(' *+.,?¿!¡":;-=/$@#ââ()[]{}') 105 # Lista de verbos principales sin carga semántica 106 verbs_list = ['existir','hacer','deber','tener'] 107 corpus_verbs = [] 108 corpus_verbs_nouns = ['poder'] 109 110 # Fuera los verbos auxiliares y semiauxiliares: 111 if item.split(' ')[2].startswith('VA') or item.split(' ')[2].startswith('VS') or item.split(' ')[1] in verbs_list : 112 continue; 105 113 # Escoger original o raÃz 106 114 w = item.split(' ')[1] … … 188 196 files_to_lower(path_orig,lower_corpus_path) 189 197 190 file_words_pp,corpus_words = preprocess(lower_corpus_path,do_fl= True)198 file_words_pp,corpus_words = preprocess(lower_corpus_path,do_fl=False) 191 199 192 200 # Plan de la patria 193 exclude_words = ['descripcion','justificacion','construccion','desarrollo','comunidad','comunal','proyecto','prueblo','desarrollar','mismo','nacional','pueblo','sistema','produccion'] 194 #exclude_words = [u'tener',u'mismo',u'informo',u'indico',u'aseguro',u'anuncio',u'afirmo',u'sido',u'dia',u'dias',u'dijo',u'presidente',u'gobierno',u'solo',u'parte',u'asimismo',u'asi',u'via',u'debe',u'segun',u'estamos',u'esta',u'estan',u'este',u'estos',u'mas',u'pais',u'años',u'año',u'ahora',u'tener',u'tiene',u'tienen',u'tuvo',u'tendria',u'tendrian',u'hace',u'hizo',u'habia',u'habian',u'hacer',u'haber',u'ahora',u'nuevo',u'aun',u'puede',u'casi',u'forma',u'tambien',u'ademas',u'dejar',u'admitio',u'actual',u'persona',u'personas',u'mejor',u'entonces',u'pueden',u'podrian',u'pudieran',u'grupo',u'mes',u'meses',u'momento','momentos',u'manera',u'maneras',u'señalo',u'estuvo',u'estuvieron',u'agrego','estado','particular','aqui','pase','paso','podra','dejo','foto','cerca','caso','gran','grandes','nueva','nunca','nacional','venezuela','informacion','pueblo','señala','estados','pueblo'] 201 #exclude_words = ['descripcion','justificacion','construccion','desarrollo','comunidad','comunal','proyecto','prueblo','desarrollar','mismo','nacional','pueblo','sistema','produccion'] 202 exclude_words = [u'tener',u'mismo',u'informo',u'indico',u'aseguro',u'anuncio',u'afirmo',u'sido',u'dia',u'dias',u'dijo',u'presidente',u'gobierno',u'solo',u'parte',u'asimismo',u'asi',u'via',u'debe',u'segun',u'estamos',u'esta',u'estan',u'este',u'estos',u'mas',u'pais',u'años',u'año',u'ahora',u'tener',u'tiene',u'tienen',u'tuvo',u'tendria',u'tendrian',u'hace',u'hizo',u'habia',u'habian',u'hacer',u'haber',u'ahora',u'nuevo',u'aun',u'puede',u'casi',u'forma',u'tambien',u'ademas',u'dejar',u'admitio',u'actual',u'persona',u'personas',u'mejor',u'entonces',u'pueden',u'podrian',u'pudieran',u'grupo',u'mes',u'meses',u'momento',u'momentos',u'manera',u'maneras',u'señalo',u'estuvo',u'estuvieron',u'agrego',u'estado',u'particular',u'aqui',u'pase',u'paso',u'podra',u'dejo',u'foto',u'cerca',u'caso',u'gran',u'grandes',u'nueva',u'nunca',u'nacional',u'venezuela',u'informacion',u'pueblo',u'señala',u'estados',u'pueblo'] 203 exclude_sust = [u'pais',u'venezuela',u'año',u'dia',u'caracas',u'ayer',u'vena'] 204 exclude_adj = [u'venezolano'] 205 exclude_verb = [u'haber',u'decir',u'hablar',u'explicar',u'indicar',u'asegurar',u'aseverar',u'anunciar',u'realizar',u'informar',u'calificar',u'poner',u'querer',u'presentar',u'seguir',u'llevar',u'expresar',u'manifestar',u'considerar',u'afirmar',u'destacar',u'señalar',u'referir',u'llamar',u'agregar',u'publicar',u'poder'] 206 207 exclude_words += exclude_sust + exclude_adj + exclude_verb 195 208 excluded = open(corpus_path+'excluded.txt','w','utf-8-sig') 196 209 added_files = []
Nota: Vea TracChangeset
para ayuda en el uso del visor de conjuntos de cambios.