Cambios entre Versión 29 y Versión 30 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
28/02/2017 00:03:37 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v29 v30  
    2626* Una Distribución de Probabilidad de una variable aleatoria X representa todos los valores posibles de X y las probabilidades de que cada valor posible ocurra. Denotaremos la distribución de probabilidad de una variable aleatoria X como P(X).
    2727
    28 === 1.1.3 Metodología del Modelo LDA ===
     28
     29=== 1.2 Herramientas ===
     30
     31Herramientas para el modelado de tópicos
     32
     33Para realizar el modelado de tópicos es necesario tener tres (3) herramientas
     34
     35 1. Freeling
     36 2. LDA
     37 3. Nuestra herramienta Web
     38
     39 * Freeling: Es una o un conjunto de herramientas para análisis lingüístico, la cual es de código abierto y fue desarrollada por ​Lluís Padró, la misma es mantenida por ​TALP Research Center en la ​Universitat Politècnica de Catalunya. Podemos descargarlo en su Página Oficial [​http://nlp.cs.upc.edu/freeling/node/30 Freeling]
     40
     41 * LDA: Es una implementación en C del algoritmo Latent Dirichlet Allocation (LDA), el cuál permite analizar corpus y extraer los tópicos que combinados forman el documento. Podemos descargarlo en su Página Oficial [​http://www.cs.princeton.edu/~blei/lda-c/lda-c-dist.tgz LDA]. O nuestra versión compilada desde [​https://planificacion.cenditel.gob.ve/trac/attachment/wiki/ModeladoTopicos_2017/herramientas/lda-c-dist_compilado.tar.gz aquí].
     42
     43 * Sistema de Modelado de Tópicos: Es una visualización interactiva de los resultados del LDA, basado en esta implementación de ​Github, pero migrado al proyecto al framework ​Django. El código fuente de la aplicación se encuentra en nuestros [​https://planificacion.cenditel.gob.ve/trac/browser/modelado_topicos Repositorios].
     44
     45Para mayor información sobre la instalación y configuración del Sistema de Modelado de Tópicos presione [https://planificacion.cenditel.gob.ve/trac/wiki/ModeladoTopicos_2017/instalacion aquí]
     46
     47
     48
     49=== 1.3 Metodología del Modelo LDA ===
    2950
    3051Para el procesamiento de documentos se cuenta con el Latent Dirichlet Allocation (LDA), que es un modelo probabilístico para la colecciones de datos discretos, como un corpus de texto. El modelo LDA tiene un gran impacto dentro de los problemas de recuperación de información (en este caso obtención de tópicos), de ahí su gran importancia dentro de este ámbito.
     
    7798
    7899
    79 === 1.1.4 Herramientas ===
    80100
    81 Herramientas para el modelado de tópicos
    82 
    83 Para realizar el modelado de tópicos es necesario tener tres (3) herramientas
    84 
    85  1. Freeling
    86  2. LDA
    87  3. Nuestra herramienta Web
    88 
    89  * Freeling: Es una o un conjunto de herramientas para análisis lingüístico, la cual es de código abierto y fue desarrollada por ​Lluís Padró, la misma es mantenida por ​TALP Research Center en la ​Universitat Politècnica de Catalunya. Podemos descargarlo en su Página Oficial [​http://nlp.cs.upc.edu/freeling/node/30 Freeling]
    90 
    91  * LDA: Es una implementación en C del algoritmo Latent Dirichlet Allocation (LDA), el cuál permite analizar corpus y extraer los tópicos que combinados forman el documento. Podemos descargarlo en su Página Oficial [​http://www.cs.princeton.edu/~blei/lda-c/lda-c-dist.tgz LDA]. O nuestra versión compilada desde [​https://planificacion.cenditel.gob.ve/trac/attachment/wiki/ModeladoTopicos_2017/herramientas/lda-c-dist_compilado.tar.gz aquí].
    92 
    93  * Sistema de Modelado de Tópicos: Es una visualización interactiva de los resultados del LDA, basado en esta implementación de ​Github, pero migrado al proyecto al framework ​Django. El código fuente de la aplicación se encuentra en nuestros [​https://planificacion.cenditel.gob.ve/trac/browser/modelado_topicos Repositorios].
    94 
    95 Para mayor información sobre la instalación y configuración del Sistema de Modelado de Tópicos presione [https://planificacion.cenditel.gob.ve/trac/wiki/ModeladoTopicos_2017/instalacion aquí]
    96 
    97 
    98 === 1.1.5 Posibles usos ===
     101=== 1.4 Posibles usos ===
    99102
    100103Las potencialidades de un sistema de este tipo pueden ser diversas. Por una parte, pueden ser útiles para el estudio de matrices discursivas contenidas en conjuntos de documentos como titulares de prensa y reportajes. Por lo tanto, puede contribuir con el '''estudio de matrices mediáticas o comunicacionales'''. En esta categoría, puede ser que el corpus se encuentre integrado por otro tipo de textos, como discursos políticos, entonces sería posible estudiar un buen número de alocuciones de una cierta tendencia para extraer los aspectos de significado más constantes.