Cambios entre Versión 26 y Versión 27 de ModeladoTopicos_2017/presentación


Ignorar:
Fecha y hora:
27/02/2017 23:59:41 (hace 7 años)
Autor:
lchourio
Comentario

--

Leyenda

No modificado
Añadido
Eliminado
Modificado
  • ModeladoTopicos_2017/presentación

    v26 v27  
    2424* Probabilidad Es el conjunto de posibilidades de que un evento ocurra o no en un momento y tiempo determinado. Dichos eventos pueden ser medibles a trav´es de una escala de 0 a 1, donde el evento que no pueda ocurrir tiene una probabilidad de 0 (evento imposible) y un evento que ocurra con certeza es de 1 (evento cierto).
    2525
     26* Una Distribución de Probabilidad de una variable aleatoria X representa todos los valores posibles de X y las probabilidades de que cada valor posible ocurra. Denotaremos la distribución de probabilidad de una variable aleatoria X como P(X).
    2627
    2728=== 1.1.3 Metodología del Modelo LDA ===
     
    4849 '''3. Ejecutar el pre-procesamiento sobre el corpus'''
    4950
    50 El vamos a necesitar tres cosas primero tenemos que alimentar el conocimiento a la máquina que sea leer toneladas de cosas segundo tendrá que tener cuidado con las palabras que usamos ya que son las características que cuidan la información y, finalmente, Necesitará cerciorarse de que el conocimiento es cortado En los trozos de tamaño adecuado ya que esto determinará el contexto dentro del cual se conectarán las palabras como para
     51El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y visualizar los resultados en la interfaz.
    5152
    52 Es importante se˜nalar que se descartan las palabras con poco contenido, por ejemplo, los art´ıculos
    53 (la, los, un, unos, etc), las preposiciones (a, con, por, en, para, etc) y los conjuntivos (cuando,
    54 porque, aunque, etc).
     53El pre-procesamiento busca '''eliminar palabras que no aportan a la configuración de los tópicos''' o temas, por ejemplo, las palabras que cumplen una función más de tipo sintáctica (preposiciones, artículos, pronombres). También puede servir para eliminar palabras que por la naturaleza misma del corpus tienen una frecuencia de aparición demasiado alta, lo que hace que tampoco aporten a algún tópico en particular, por ejemplo palabras como decir, informar, indicar, señalar, tienen una frecuencia de aparición muy alta dentro de un corpus de tipo periodístico o mediático, por lo que resulta conveniente eliminarlas en el pre-procesamiento para tener una data depurada que permita apreciar mejor la configuración de los tópicos.
    5554
    56 El pre-procesamiento es una acción mediante la cual una serie de algoritmos se encargan de limpiar los corpus y crear otros directorios/archivos necesarios para usar el algoritmo del LDA y también para la visualización de resultados en la interfaz. El pre-procesamiento busca eliminar palabras que no aportan a la configuración de los tópicos o temas de interés en un corpus, por ejemplo, las palabras que cumplen una función más de tipo sintáctica y que no tienen una carga semántica relevante en sí mismas (preposiciones, artículos, pronombres), pero también puede servir para eliminar palabras que por la naturaleza misma del corpus tienen una frecuencia de aparición demasiado alta, lo que hace que tampoco aporten a algún tópico en particular, sino que son características del tipo de género discursivo (por ejemplo palabras como decir, informar, indicar, señalar, tienen una frecuencia de aparición muy alta dentro de un corpus de tipo periodístico o mediático, por lo que resulta conveniente eliminarlas en el preprocesamiento de manera de tener una data depurada que permita apreciar mejor la configuración de los tópicos del corpus.
     55Dentro del pre-procesamiento, existe una sección en la que se '''configuran las formas gramaticales que se desean conservar en los corpus''' luego de pre-procesar, es decir, las que no se excluirán, ya que por omisión se descartan todas. Entre estas formas tenemos: verbos, adjetivos, sustantivos, adverbios, determinantes, pronombres, conjunciones, interjecciones.
    5756
    58 Selección de Vocabulario
     57El algoritmo que realiza el pre-procesamiento, también permite '''excluir palabras''' (que se deben conocer a priori) que no aportan ninguna carga lingüística para el análisis. Es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra "pueblo" y en el corpus existe la palabra "pueblos" esta última no será excluida ya que está en plural y son palabras distintas.
    5958
    60 Dentro del código que permite realizar el pre-procesamiento, existe una sección en la que se configuran las formas gramaticales que se desean conservar en los corpus luego de pre-procesar, es decir, las que le pasemos a la función serán las que no se excluirán, si no pasamos ninguna las excluirá todas por omisión, entre estas formas tenemos:
    6159
    62 'V', verbos
    63 'A', adjetivos
    64 'N', sustantivos
    65 'R', adverbios
    66 'D', determinantes
    67 'P', pronombres
    68 'C', conjunciones
    69 'I', interjecciones
    70 'S', preposiciones
    71 Exclusión de palabras
     60 ''' 4. Preparación de entradas para el algoritmo LDA'''
    7261
    73 El algoritmo que realiza el pre-procesamiento, también permite excluir palabras (que se deben conocer a priori)que no aportan ninguna carga lingüística para el análisis, es importante resaltar que las palabras se excluyen literalmente como se colocan, es decir que si se excluye la palabra pueblo y en el corpus existe la palabra pueblos esta última no será excluida ya que es está plural y no es pueblos es distinto de pueblo.
     62Este proceso es un paso intermedio que consiste en tomar algunas de las salidas del pre-procesamiento y generar archivos que servirán como entrada para la ejecución del LDA.
    7463
    75 Preparación de entradas para el algoritmo LDA
    7664
    77 Entre el pre-procesamiento y la ejecución del LDA existe un paso intermedio, que consiste en tomar la salida de algunos de los archivos resultantes de la ejecución del pre-procesamiento, procesarlos y generar algunos archivos que servirán como entrada para la ejecución del LDA.
     65 '''5. Ejecutar la implementación del algoritmo LDA'''
    7866
    79 Ejecutar implementación del algoritmo LDA
     67Para la implementación del algoritmo es necesario definir algunos parámetros de ejecución: cantidad de tópicos que se desean generar, ruta del archivo de configuración del LDA, ruta de los archivos pre-procesados, ruta de uno de los archivos generados por el paso intermedio (extensión .dat) y el nombre de la carpeta donde se generará la salida.
    8068
    81 El algoritmo LDA se encarga de procesar archivos con un formato exacto (el cuál es generado mediante el pre-procesamiento) complementado con los archivos generados por el Script intermedio (ver sección anterior) el LDA se encargará de construir los tópicos en la cantidad que se le especifique al utilizar el LDA.
     69Con estos parámetros definidos, simplemente es necesario ejecutar el LDA, esperar a que se realice el procedimiento y visualizar la carpeta con los archivos correspondientes a la salida.
    8270
    83 Definir parámetros de ejecución
    8471
    85 Los parámetros de ejecución del algoritmo se limitan a la colocar la cantidad de tópicos que se quieren, la ruta al archivo de configuración del LDA, la ruta de los archivos pre-procesados, la ruta de uno de los archivos generados por el archivo intermedio (extensión .dat) y el nombre de la carpeta donde generaremos la salida.
     72 '''6. Presentar resultados del algoritmo LDA'''
    8673
    87 Ejecutar el LDA
     74Los resultados del LDA pueden ser visualizados mediante una interfaz web que presenta un diagrama de barras, constituido por la aparición de los tópicos (representados en colores distintos) en el corpus.
    8875
    89 Con estos parámetros definidos, simplemente es necesario ejecutar el LDA, esperar que realice el procedimiento y visualizar la carpeta con los archivos correspondientes a la salida.
     76* Colocar una imagen de ejemplo
    9077
    91 Presentar resultados del algoritmo LDA
    92 
    93 Los resultados del LDA pueden ser visualizados mediante una interfaz web, la cuál necesita un documento como semilla (es decir que se coloque el nombre de uno, o se de en el botón que busca uno aleatorio) para mostrar los corpus en un diagrama de barra cuyo cuerpo esta constituido por la aparición de los tópicos (representados en colores distintos).
    94 
    95 Una mezcla de la mayoría de los temas y no sólo cualquier tema específicamente, mientras que un valor bajo de alfa significa que un documento es más probable que sea representado por sólo algunos de los temas de manera similar el mejor valor alto significa que cada tema es probable que contenga un Mezcla de la mayoría de las palabras no sólo más específicamente, mientras que un valor bajo significa que un tema puede contener una mezcla de sólo unas pocas de las palabras para ponerlo sin rodeos alto alfa hará que los documentos que son más similares entre sí y mejor Hará que los temas aparezcan más similares entre sí dada mi caso de uso, este era en realidad un efecto deseado por lo que los dos parámetros pueden ser bastante altos en caso de que me pierda algo aquí es una fórmula ahora como un resultado final LDA modelo produce este archivo que básicamente contiene todos Los temas hechos de todas las palabras con sus p
    96 
    97 el modelo para hacer y la altura de las barras representan la fracción de palabras en este documento que se originó de un tema dado es una distribución de probabilidad por lo que todos los valores suman 1 ahora en lugar de centrarse en uno de los temas más dominantes que podemos
    98 
    99 * Una Distribuci´on de Probabilidad de una variable aleatoria X representa todos los valores
    100 posibles de X y las probabilidades de que cada valor posible ocurra. Denotaremos la distribuci´on
    101 de probabilidad de una variable aleatoria X como P(X).
    10278
    10379=== 1.1.4 Herramientas ===
     
    12298=== 1.1.5 Posibles usos ===
    12399
    124 Las potencialidades de un sistema de este tipo pueden ser diversas. Por una parte, pueden ser útiles para el estudio de matrices discursivas contenidas en conjuntos de documentos como titulares de prensa y reportajes. Por lo tanto, puede contribuir con el estudio de matrices mediáticas o comunicacionales. En esta categoría, puede ser que el corpus se encuentre integrado por otro tipo de textos, como discursos políticos, entonces sería posible estudiar un buen número de alocuciones de una cierta tendencia para extraer los aspectos de significado más constantes.
     100Las potencialidades de un sistema de este tipo pueden ser diversas. Por una parte, pueden ser útiles para el estudio de matrices discursivas contenidas en conjuntos de documentos como titulares de prensa y reportajes. Por lo tanto, puede contribuir con el '''estudio de matrices mediáticas o comunicacionales'''. En esta categoría, puede ser que el corpus se encuentre integrado por otro tipo de textos, como discursos políticos, entonces sería posible estudiar un buen número de alocuciones de una cierta tendencia para extraer los aspectos de significado más constantes.
    125101
    126 Por otra parte, en el área de diseño y evaluación de políticas públicas, el modelado de tópicos puede contribuir como herramienta de organización de documentos recogidos a partir de consultas públicas en las que los ciudadanos expresan sus opiniones en torno a varios temas. Por ejemplo, una consulta pública sobre una iniciativa legislativa o del Ejecutivo podría registrarse y analizarse eficientemente con ayuda de esta herramienta, además de que los textos pueden colocarse a disposición del público. Lo mismo sería válido para diferentes tipos de consulta a nivel nacional, estadal o municipal.
     102Por otra parte, el modelado de tópicos puede ser útil para la '''investigación documental''' si se cuenta con un corpus de productos de investigación, tales como libros y artículos científicos. La importancia de los repositorios de publicaciones gubernamentales y universitarias podría incrementarse si contáramos con buscadores que no sólo extrajeran los títulos de los artículos, sino que además los analizaran entregándonos como resultado un conjunto de tópicos relevantes en función de los temas de interés en campos como la salud y la producción alimentaria.
    127103
    128 Finalmente, el modelado de tópicos puede ser útil para la investigación documental si se cuenta con un corpus de productos de investigación, tales como libros y artículos científicos. La importancia de los repositorios de publicaciones gubernamentales y universitarias podría incrementarse si contáramos con buscadores que no sólo extrajeran los títulos de los artículos, sino que además los “leyeran” entregándonos como resultado un conjunto de tópicos relevantes en función de los temas de interés en campos como la salud y la producción alimentaria.
     104Finalmente, en el área de '''diseño y evaluación de políticas públicas''', el modelado de tópicos puede contribuir como herramienta de organización de documentos recogidos a partir de consultas públicas en las que los ciudadanos expresan sus opiniones en torno a varios temas. Por ejemplo, una consulta pública sobre una iniciativa legislativa o del Ejecutivo podría registrarse y analizarse eficientemente con ayuda de esta herramienta, además de que los textos pueden colocarse a disposición del público. Lo mismo sería válido para diferentes tipos de consulta a nivel nacional, estadal o municipal.
    129105 
    130  * Consulta pública Proceso escenarios
     106Específicamente en el caso de la Planificación Operativa del año 2018 puede emplearse esta herramienta en dos momentos o escenarios:
     107 
     108'''Primer momento:'''  Una vez que las instituciones del Estado hayan cargado su explicación situacional en el SIPES, con la participación de las comunidades, el modelado de tópicos puede ser aplicado para que el los actores macro, en este caso, los ministerios, puedan observar los temas o tópicos relevantes de la situación de sus entes adscritos.
    131109
    132 
    133 TRaducción
    134 Hola a todo el mundo Estoy entendiendo este palacio y voy a estar hablando de LDA un tema modelos i primero se topó con el tema de modelado cuando estaba trabajando en cuestión estrella Dana que actualmente es el más rápido crecimiento de la plataforma de publicación en línea mi tarea principal es el primer científico de datos En la empresa fue para construir un modelo de tema Lda, por supuesto, no voy a estar compartiendo un detalles íntimos sobre los problemas de aplicación en concreto en lugar de lo que voy a hablar de la idea detrás de la propia AOD ¿por qué funciona cuáles son las herramientas y marcos que pueden Ser utilizado aquí
    135 Lo que llevó a un parámetro es un ajuste de lo que significan en términos de su caso de uso específico y qué buscar cuando se evalúe como una empresa hizo su nombre mediante la creación de una hermosa experiencia de lectura en línea que cargar su PDF y se transforma en Dormir limpio publicación digital es bastante impresionante, pero que no es donde la base de lectores leal y monetizing se está construyendo tema tiene toneladas y toneladas de contenido y mantener los lectores contratados uno debe proporcionar maneras para que navegar en todo este archivo enorme de libros de catálogos de revistas y Periódicos es por eso que en cada publicación se ve un flujo interminable de cosas que usted podría estar interesado en leer a continuación aquí la cuestión principal es qué mostrar dónde y cuándo obviamente las sugerencias tienen que estar relacionados con lo que está leyendo de alguna manera y Una de esas formas es simplemente mostrar cosas similares ahora similares pueden significar patrones de lectura similares también puede significar similares en términos de contenido esta presentación es sobre la segunda de las dos opciones
    136 Por lo que el principal caso de uso aquí es encontrar si dos revistas sería considerado similar por el lector humano de todas las opciones y las siguientes diapositivas están realmente influenciados por este caso de uso así que tenga esto en cuenta a medida que avanza, pero antes incluso de que podamos hablar Acerca de las publicaciones sea similar hay que ser capaz de entender lo que la publicación es todo y para nosotros los seres humanos la tarea es muy simple vamos a sus tierras rápidas en el color solo y ya tendrá una idea bastante buena de que esto es un Revista sobre alimentos y
    137 Cocinar no es sólo una lista de ceros y también esta es una revista para que podamos abrirlo y leer lo que es información de atención y somos muy buenos en entenderlo porque tenemos un cerebro que podemos comenzar a responder a preguntas como ¿de qué se trata Lo que está relacionado con lo que se siente lo que significa que podemos hacer esto sin esfuerzo, ya que tenemos un montón de conocimientos sobre el mundo que entendemos lo que un coche es lo que es tener un cumpleaños ¿cómo se siente ser feliz En la parte superior de la que también es bueno para adaptarse a cambiar en el contexto sobre la marcha que sabemos cómo elegir el nivel adecuado de abstracción no demasiado cerca no demasiado lejos para que todo tiene sentido que podemos entender fácilmente que la misma palabra lleva un significado completamente diferente Basado en que el contexto que aparece en él se aplica a tales conceptos aparentemente objetivos como los colores el pelo rojo el vino rojo la piel derecha el libro rojo la misma palabra color completamente diferente en general tenemos esta increíble capacidad de aprender y entender diferentes temas basados ​​en las palabras que aparecen en varios contextos
    138 Tipo de cómo los niños pequeños aprenden un idioma ahora cómo poner todo esto o ser más realista al menos parte de ella en una máquina para que podamos automatizar la búsqueda de revistas similares y también hacerlo de tal manera que las recomendaciones que se sienten casi Humanos como para empezar vamos a necesitar tres cosas primero tenemos que alimentar el conocimiento a la máquina que sea leer toneladas de cosas segundo tendrá que tener cuidado con las palabras que usamos ya que son las características que cuidan la información y, finalmente, Necesitará cerciorarse de que el conocimiento es cortado
    139 En los trozos de tamaño adecuado ya que esto determinará el contexto dentro del cual se conectarán las palabras como para
    140  El conocimiento que podemos utilizar con seguridad Wikipedia es lo suficientemente amplia como para descargar y divertida para experimentar con wikipedia tiene artículos sobre casi cualquier cosa
    141 Bien por lo menos todo lo que importa y mientras esta definición de digamos un cumpleaños mi difieren de lo que cada uno de nosotros está pensando en que todavía es un buen lugar para empezar no estamos construyendo un cerebro aquí, pero vamos a construir la mejor cosa siguiente Un modelo y al igual que en cualquier proceso de aprendizaje de la máquina hay cuatro partes a ser de color en primer lugar cómo procesar los datos en nuestro caso wikipedia entonces cómo entrenar el modelo real aquí es donde el LDA entrará en juego después de que tenemos que Ser capaz de aplicar el modelo en algunos nuevos datos en nuestro caso vamos a utilizar el modelo de construcción de la pedia para analizar cualquier revista y, finalmente, probablemente queremos saber si hemos tenido éxito o no decirlo por adelantado para las tres primeras partes i Han dependido en gran medida de Benson una fuente abierta tema de modelado marco maiden - el crédito aquí va a este tipo trató contra él es por lejos mi herramienta de modelado tema favorito y no podía decir suficientes cosas buenas acerca de que seguir adelante y Google en contra Ellos seguro que lo encontraremos todo bien vamos a empezar primero i descargado el wikipedia Inglés completo es en realidad alrededor de 12 conciertos si vas a conseguir algún sitio que encontrará todos los enlaces y las instrucciones theirknowledge en la wikipedia se presenta en forma de artículos Y eso es genial porque significa que ya está altamente contextualizado cada articularmente cubrir como un solo tema no es como comienza a escribir sobre el baloncesto y luego cambia a la Segunda Guerra Mundial es en realidad una característica muy importante de elegir el corpus derecho ya que el modelo asumirá que Cada pedazo de texto que alimentamos contiene dos palabras que están relacionadas de alguna manera como hablar sobre el mismo tema por lo que la estructura interna del comediante nos da un buen comienzo, pero no es perfecto la Commedia también contiene toneladas de entradas muy pequeñas con probablemente cuando me deshago De ellos no para reforzar cualquier trabajo no deseado para trabajar las conexiones más tarde elegí deshacerse de todo el artículo más corto de 200 palabras sólo para estar en el lado seguro siguiente cosa vale la pena prestar atención es que el video también tiene un montón de entradas que no son Realmente los artículos como tales, pero los metadatos se pueden identificar que estamos buscando en el título y, más específicamente, lo que comienza con he eliminado todos los intereses que comienzan con estos espacios de nombres ido ahora el corpus se redujo, pero no se preocupe, sigue siendo grande Bastante calidad sobre cantidad la cosa siguiente es recolectar todas las palabras de los artículos restantes y clasificar por la popularidad ése será nuestras solamente características observables para el modelo así que no hay crimen en ser exigente aquí también podemos comenzar quitando las palabras que aparecen en Más del diez por ciento de los artículos, así como los que son actualmente menos de 20 artículos, entonces también podemos sentir hacia mi longitud podemos aplicar diferentes stop lista que variará dependiendo de la naturaleza de la aplicación que puede incluso llevar esto más allá por la experimentación Con características como límite es una espinilla diferentes partes del habla imagínate construir un modelo que sólo reaccionaría a anunciar o peor finalmente tenemos que establecer cuántas de las palabras restantes deben quedar en el modelo y buen número para empezar es en algún lugar entre cincuenta Y cien mil ok así que ahora tenemos nuestro conjunto final de artículos que definirá la ventana de contexto y nuestro conjunto final de palabras que podemos utilizar estos dos para formar una TF idea término frecuencia inversa documento frecuencia matriz que junto con una lista de palabras Serán las dos entradas en el modelo todo esto hasta ahora fue el paso de pre-procesamiento y no puedo subrayar suficiente lo importante que esto significa la calidad de la salida será determinada por la calidad de la entrada tan claro como la basura en Basura fuera así que siempre que hicimos las elecciones correctas hasta ahora un modelo es ahora necesario para unir todo juntos contexto palabras temas En esta presentación tal modelo es el día que representa Layton declara la localización que fue desarrollada por la línea de David sus amigos y 2003 y desde entonces ha visto muchas áreas de aplicación documento clasificación sentimiento análisis incluso por informática las únicas características observables que el modelo ve realmente otros Palabras que aparecen en los documentos y hay un montón de documentos otro parámetro es un ocultado o latente inferido uno de ellos es un tema que se asigna a cada palabra que está haciendo cada documento y asegúrese de que tales temas de aviso cómo el modelo combina elegantemente las tres cosas que en realidad Lo necesito tema contexto y palabra permítanme tratar de explicarlo en mis propias palabras imaginar que en el mundo sólo tenemos tres temas política moda y deportes cada tema se expresa como una lista de palabras con probabilidades para que pertenezcan a ese tema vamos a Asumir que cualquier documento puede ser descrito por una receta de qué tema y cuánto de él debe contener por ejemplo cincuenta por ciento política treinta por ciento moda veinte por ciento deportes el modelo a continuación, generar dicho documento tomando el número correcto de palabras de temas específicos y Mezclarlos juntos lda es una bolsa de palabras modelo por lo que no hay reglas de sintaxis aquí ahora usted puede decir que no es exactamente cómo nuestras mejores obras de ficción se crearon verdad, pero hay algo de verdad en el modelo en la forma de las cosas de modelo y si tomamos Cualquier artículo y eliminar la sintaxis que definitivamente perdería bastante
    142  Poco de información que probablemente sería ilegible para un humano, pero apuesto a que todavía podría decir si se trata de deportes o la moda por lo que de alguna manera cada documento es una colección de palabras tomadas de diferentes cubos o temas dependiendo de cuando se escribe sobre todo esto Es sólo un escenario imaginario para mostrar lo que es que el modelo asume que es el caso ahora en realidad funciona a la inversa aunque el principal es más o menos el mismo modelo toma un documento real escrito por una persona real utilizando todo tipo de palabras sintaxis Y lo que de hecho se necesita una gran cantidad de esos documentos se supone que las palabras en el mismo documento están relacionados y luego tratar trata de aprender un modelo que explicaría cómo tal colección de documentos se podría haber generado en el primer lugar si seguimos los cuatro Escenario sólo tenemos que decirle cuántos temas que deben hacer y algunas reglas adicionales sobre cómo se deben construir bien, así que tal vez las cosas no son realmente tan simple, pero de una manera muy simplificada que es cómo LD funciona algunas de las reglas adicionales que i Mencionó que el modelo modelo requiere se llaman hiperparametros alfa y mejor son ambos mejores contadores de Derrek Lee distribución alfa control / distribución de tema de documento y mejor responsable de su palabra lo sentimos nuestro tema fueron distribución un alto valor alfa significa que cada documento es probable que contenga Una mezcla de la mayoría de los temas y no sólo cualquier tema específicamente, mientras que un valor bajo de alfa significa que un documento es más probable que sea representado por sólo algunos de los temas de manera similar el mejor valor alto significa que cada tema es probable que contenga un Mezcla de la mayoría de las palabras no sólo más específicamente, mientras que un valor bajo significa que un tema puede contener una mezcla de sólo unas pocas de las palabras para ponerlo sin rodeos alto alfa hará que los documentos que son más similares entre sí y mejor Hará que los temas aparezcan más similares entre sí dada mi caso de uso, este era en realidad un efecto deseado por lo que los dos parámetros pueden ser bastante altos en caso de que me pierda algo aquí es una fórmula ahora como un resultado final LDA modelo produce este archivo que básicamente contiene todos Los temas hechos de todas las palabras con sus probabilidades de pertenecer al tema que es lo que ahora está hablando de los temas ¿cuántos se debe ir para decir que cinco 3476 realmente depende del dominio de la aplicación recuerde mi objetivo inicial no era la etiqueta o clasificar revistas Sino poder compararlos centrándose en las similitudes layton y hacer esto de tal manera que tendría sentido para un lector humano así que una vez más terminé buscando respuestas en el lado del cerebro humano ya mencioné nuestra capacidad de sentir y Aplicar el nivel adecuado de abstracción a medida que percibimos el mundo que nos rodea, pero hay mucho más cosas que hay para ser honesto No estoy seguro de si me trajo más cerca de encontrar el número real de temas a utilizar para el modelo i terminó Experimentando con varios valores a partir de 50 y llegar tan alto como 500, pero para decirte la verdad que era definitivamente interesante mirar estas cosas y tratar de entender qué es lo que prestamos atención cuando recogemos una revista o lo que hace dos de Ellos parecen elección similar En esta presentación tal modelo es el día que representa Layton declara la localización que fue desarrollada por la línea de David sus amigos y 2003 y desde entonces ha visto muchas áreas de aplicación documento clasificación sentimiento análisis incluso por informática las únicas características observables que el modelo ve realmente otros Palabras que aparecen en los documentos y hay un montón de documentos otro parámetro es un ocultado o latente inferido uno de ellos es un tema que se asigna a cada palabra que está haciendo cada documento y asegúrese de que tales temas de aviso cómo el modelo combina elegantemente las tres cosas que en realidad Lo necesito tema contexto y palabra permítanme tratar de explicarlo en mis propias palabras imaginar que en el mundo sólo tenemos tres temas política moda y deportes cada tema se expresa como una lista de palabras con probabilidades para que pertenezcan a ese tema vamos a Asumir que cualquier documento puede ser descrito por una receta de qué tema y cuánto de él debe contener por ejemplo cincuenta por ciento política treinta por ciento moda veinte por ciento deportes el modelo a continuación, generar dicho documento tomando el número correcto de palabras de temas específicos y Mezclarlos juntos lda es una bolsa de palabras modelo por lo que no hay reglas de sintaxis aquí ahora usted puede decir que no es exactamente cómo nuestras mejores obras de ficción se crearon verdad, pero hay algo de verdad en el modelo en la forma de las cosas de modelo y si tomamos Cualquier artículo y eliminar la sintaxis que definitivamente perdería bastante
    143 Palabras por la forma en que sólo entiende las palabras que se utilizaron para entrenar el modelo todo lo demás puede no estar allí Esta es una revista mundial de 20.000 Estoy seguro de que estaremos bien si perdemos si a lo largo del camino también Le puedo asegurar que si mi modelo entiende tan poco como el diez por ciento de las palabras en esta revista en particular es más que bien a menos que, por supuesto, hemos entrenado el modelo en el peor que llevar mejor poco significado o completamente de un dominio diferente que es por qué El corpus de texto y el preprocesamiento de la misma son probablemente los pasos más críticos para volver a la revista después de haber leído el modelo no intenta producir tal distribución de temas que explicaría mejor cómo esta revista se podría haber generado la distribución tendrá tantos temas como nosotros Pidió el modelo para hacer y la altura de las barras representan la fracción de palabras en este documento que se originó de un tema dado es una distribución de probabilidad por lo que todos los valores suman 1 ahora en lugar de centrarse en uno de los temas más dominantes que podemos Tomar como un todo un patrón único que hace que cada revista parezca lo suficientemente diferente como para ser separable, pero lo suficientemente similar como para ser agrupados, incluso podríamos decir que una revista como nosotros como un ADN ahora vamos a echar un vistazo a los temas reales aquí Por cierto esto es lo que conseguí de la gpda usando 300 temas para que puedas ver que son realmente solo una lista ordenada de palabras con sus probabilidades aviso que los temas realmente no tienen nombres o etiquetas son simplemente números Y esos números no significan nada más que un identificador único, pero somos humanos y nos gusta etiquetar las cosas por lo que es tentador hacerlo aquí, así por ejemplo tema 81 cocina top 843 vino tales etiquetas deben tomar con un montón de Precaución y en mi caso de uso ni siquiera los necesitamos ya que el objetivo no era etiquetar las revistas sino darles una huella digital significativa para que podamos compararlas una manera de comparar cosas es ponerlas en un espacio lda el espacio es un Simplex ya que estamos hablando de distribuciones de probabilidad aquí dimensionalidad del espacio depende de la cantidad de temas que les pedimos a todos hasta Maine es más fuerte un cierto tema está representado en un documento El más cercano que el documento es a esa esquina temas LD espacios a menudo tienen cientos De dimensiones que no es la cosa más fácil de visualizar aquí por razones de simplicidad este espacio tiene sólo tres temas ahora una sola revista en un espacio no significa absolutamente nada pero una vez que ponemos el resto de los 25 millones de documentos aquí se vuelve mucho más interesante si nos Tienen un espacio que puede medir la distancia y podemos medir la distancia que podemos imaginar un cierto umbral dentro del cual los documentos dentro de él serán considerados similares entre sí por la manera que las distancias pueden ser medidas usando contra y la distancia del shannon una manera estándar de medir similitud entre Dos distribuciones de probabilidad que dan los valores de 0 a trabajar es que será cerrado uno está muy lejos, así que ¿qué tenemos hasta ahora el LED de un modelo nos dan un tema de distribución para esta revista así que es bueno también tenemos algunas otras revistas que estaban cerca Suficiente en el espacio y luego incluso ordenados de acuerdo a la distancia ahora antes de entrar y evaluar los resultados vamos a aclarar qué es exactamente lo que estoy buscando el único
    144 
     110'''Segundo momento:''' Una vez haya realizado el proceso de la carga de la explicación situacional, se puede realizar una consulta pública a través de un sistema en línea que permita validar la información reflejada por los entes y que permita considerar la opinión de las personas consultadas. En este sentido el sistema puede ayudar a analizar el resultado de la consulta pública y su influencia en la explicación situacional que ya se tenía.
    145111
    146112
     
    148114
    1491151. Guía Teórica del Proyecto Modelado de Tópicos CENDITEL 22 de julio de 2016
     1162.
     1173.