Aceleración del Algoritmo de análisis Semántico Latente Basado en la Unidad de Procesamiento Gráfica y Múltiples Unidades de Procesamiento Central.

León Paredes, Gabriel Alejandro

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/83347

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Sánchez Escobar, Juan Jaime
dc.contributor.advisor	Meda Campaña, María Elena
dc.contributor.advisor	Gómez Barba, Leopoldo
dc.contributor.advisor	Pareja Lora, Antonio
dc.contributor.author	León Paredes, Gabriel Alejandro
dc.date.accessioned	2021-10-02T20:27:10Z	-
dc.date.available	2021-10-02T20:27:10Z	-
dc.date.issued	2018-06-29
dc.identifier.uri	https://wdg.biblio.udg.mx
dc.identifier.uri	https://hdl.handle.net/20.500.12104/83347	-
dc.description.tableofcontents	Índice General I Contexto de la Investigación 2 1 Introducció n 3 1.1 Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Objetivos de la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4 Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2 Estado del Arte 14 2.1 Análisis Semántico Latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Trabajos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 II Arquitectura 24 3 Arquitectura Heterogénea Basada en la GPU y mú ltiples CPUs 25 3.1 Construcción del Espacio Semántico ‘Vectorial’ Latente . . . . . . . . . . . . . . . 28 3.2 Normalización y Reducción de la Dimensionalidad del Espacio Semántico ‘Vectorial’ Latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3 Recuperación de Información del Espacio Semántico ‘Vectorial’ Latente . . . . . . . 34 3.4 Escalabilidad de la Arquitectura Heterogénea . . . . . . . . . . . . . . . . . . . . 37 III Experimentos, Resultados y Conclusiones 49 4 Experimentos 50 4.1 Base de Conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.2 Ejecución hLSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.3 Ejecución hLSA Out-Of-Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5 Resultados 61 5.1 Ejecución hLSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2 Ejecución hLSA Out-Of-Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 vi 6 Conclusiones y Trabajos Futuros 87 6.1 Impacto de las Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.2 Discusiones y Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Bibliografía 117 vii Índice de Figuras 3.1 La arquitectura hLSA propuesta presenta tres etapas principales: creación del espacio semántico ’vectorial’ latente; normalización y reducción del espacio semántico ’vectorial’ latente; y la recuperación de información del espacio semántico ’vectorial’ latente reducido. Además, la arquitectura hLSA recibe como datos de entrada una base de conocimientos y una consulta de texto. Finalmente, como resultado, la arquitectura presenta los documentos más relevantes ordenados por la similitud de mayor a menor. 28 3.2 Arquitectura usada para la construcción del espacio semántico ’vectorial’ latente dentro de la arquitectura hLSA. Los bloques rellenos de amarillo claro representan los procedimientos ejecutados por la CPU, los bloques rellenos de azul claro representan los procedimientos ejecutados por las múltiples unidades de procesamiento central (multi-CPU), y los bloques rellenos de verde claro representan los procedimientos ejecutados por la unidad de procesamiento gráfica (GPU). . . . . . . . . . . . . . . . 30 3.3 Arquitectura usada para la normalización y reducción del espacio semántico ’vectorial’ latente dentro de la arquitectura hLSA. Los bloques rellenos de amarillo claro representan los procedimientos ejecutados por la CPU, los bloques rellenos de azul claro representan los procedimientos ejecutados por las múltiples unidades de procesamiento central (multi-CPU), y los bloques rellenos de verde claro representan los procedimientos ejecutados por la unidad de procesamiento gráfica (GPU). . . . . . 33 3.4 Arquitectura usada para la recuperación de información del espacio semántico ’vectorial’ latente dentro de la arquitectura hLSA. Los bloques rellenos de amarillo claro representan los procedimientos ejecutados por la CPU, los bloques rellenos de azul claro representan los procedimientos ejecutados por las múltiples unidades de procesamiento central (multi-CPU), y los bloques rellenos de verde claro representan los procedimientos ejecutados por la unidad de procesamiento gráfica (GPU). . . . . . 36 3.5 Arquitectura hLSAout-of-core usada para obtener el vocabulario de la base de conocimiento con cientos de miles de documentos de texto. . . . . . . . . . . . . . . . . . . . . 40 3.6 Arquitectura hLSA out-of-core usada para crear el espacio semántico ’vectorial’ latente con cientos de miles de documentos de texto. . . . . . . . . . . . . . . . . . . . . 42 3.7 Arquitectura hLSA out-of-core usada para normalizar el espacio semántico ’vectorial’ latente con cientos de miles de documentos de texto. . . . . . . . . . . . . . . . . . 43 3.8 Arquitectura hLSAout-of-core utilizada para reducir el espacio semántico ’vectorial’ latente usando el algoritmo SVD por lotes para el procesamiento de una base de conocimientos con cientos de miles de documentos de texto. . . . . . . . . . . . . . . . . . . . 45 viii 3.9 Arquitectura hLSA out-of-core utilizada para recuperar la similitud de todos los documentos representados en el espacio semántico ’vectorial’ latente reducido en base a una consulta de texto procesando una base de conocimientos con cientos de miles de documentos de texto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1 Resultado del tiempo de ejecución para la construcción del espacio semántico ’vectorial’ latente usando la versión estándar LSA y la versión acelerada hLSA con cuatro y ocho procesadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.2 Resultados del tiempo de ejecución del procedimiento SVD sobre la matriz normalizada de término-documento ejecutado por la versión estándar LSA y la versión acelerada hLSA y procesando conjuntos de datos a pequeña y mediana escala. La versión estándar LSA ejecuta procesos secuencial y la versión hLSA ejecuta procesos concurrente en la GPU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.3 Resultados de una ejecución completa para la normalización y reducción de la dimensionalidad del espacio semántico ’vectorial’ latente con un factor de k igual 300; y el esquema de ponderación TF-IDF. La versión estándar LSA ejecuta procesos secuencial y la versión hLSA ejecuta procesos concurrente en la GPU. . . . . . . . . . . . 67 5.4 Resultados de la similitud para el documento relevante 1: 1087494, documento relevante 2: 1434505, y documento relevante 3: 2031887 recuperados al procesar la consulta de texto de trastornos bipolares y usando el conjunto de datos de 5.000 documentos; 20 valores para el factor k; y dos esquemas de ponderación. . . . . . . . . . 74 5.5 Resultados de la similitud para el documento relevante 1: 1065341, documento relevante 2: 1459118, y documento relevante 3: 1526641 recuperados al procesar la consulta de texto de enfermedad del Lupus y usando el conjunto de datos de 5.000 documentos; 20 valores para el factor k; y dos esquemas de ponderación. . . . . . . . . . 74 5.6 Resultados de la similitud para el documento relevante 1: 1087494 recuperado al procesar la consulta de texto de perdida de peso por Topiramato y usando el conjunto de datos de 5.000 documentos; 20 valores para el factor k; y dos esquemas de ponderación. 75 5.7 Resultados de los mejores valores de precisión obtenidos en la ejecución de la versión hLSA out-of-corecontra la mediana de los valores de precisión obtenidos por todos los competidores de la TREC de Clinical Decision Support del año 2015. La recuperación de la información se hizo en base a la matriz de término-documento de 112.039×631.302. 82 5.8 Resultados de los mejores valores de precisión obtenidos en la ejecución de la versión hLSA out-of-corecontra la mediana de los valores de precisión obtenidos por todos los competidores de la TREC de Clinical Decision Support del año 2015. La recuperación de la información se hizo en base a la matriz de término-documento de 28.563 × 631.302. 83 5.9 Resultados de los mejores valores de precisión obtenidos en la ejecución de la versión hLSA out-of-corecontra la mediana de los valores de precisión obtenidos por todos los competidores de la TREC de Clinical Decision Support del año 2015. La recuperación de la información se hizo en base a la matriz de término-documento de 16.974×631.302. 84 ix 5.10 Resultados de los mejores valores de precisión obtenidos en la ejecución de la versión hLSA out-of-corecontra la mediana de los valores de precisión obtenidos por todos los competidores de la TREC de Clinical Decision Support del año 2015. La recuperación de la información se hizo en base a la matriz de término-documento de 9.063 × 631.302. 85 x Índice de Tablas 2.1 Resumen de las funcionalidades encontradas en los trabajos relacionados del estudio del estado del arte y nuestra propuesta. . . . . . . . . . . . . . . . . . . . . . . . . 23 4.1 Conjuntos de datos de pequeña y mediana escala usados para evaluar el tiempo de ejecución para indexar, construir, normalizar, reducir y utilizar las matrices asociadas al algoritmo LSA, así como también, recuperar información usando la arquitectura hLSA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.1 Resultados del tiempo de ejecución del procedimiento para analizar los documentos de texto de la base de conocimientos usado en la construcción del espacio semántico ’vectorial’ latente usando la versión estándar LSA y la versión acelerada hLSA con cuatro y ocho procesadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2 Resultados del tiempo de ejecución de la normzalización de los valores de la matriz de término-documento usando los esquemas de ponderación Log Entropy y TF-IDF ejecutados por la versión estándar LSA y la versión acelerada hLSA y procesando conjuntos de datos a pequeña y mediana escala. La versión estándar LSA ejecuta procesos secuencial y la versión hLSA ejecuta procesos concurrente en la GPU. . . . . . . . . 66 5.3 Resultados del tiempo de ejecución del procedimiento para analizar las tres consultas de texto a ser desplegadas en el espacio semántico ’vectorial’ latente reducido. Este procedimiento es ejecutado de manera secuencial en ambas versiones LSA y hLSA. . 69 5.4 Resultados del tiempo de ejecución total del algoritmo LSA en sus dos versiones: LSA estándar y hLSA acelerada. Usando el conjunto de datos de 5.000 documentos; k = 300; Log Entropy y TF-IDF; y tres consultas de texto. . . . . . . . . . . . . . . . . 69 5.5 Resultados del proceso de recuperación de información del espacio semántico ’vectorial’ latente reducido ejecutado la versión hLSA con la consulta de texto de trastornos bipolares. Usando los esquema de ponderación de Log Entropy y TF-IDF; conjunto de datos de 500 documentos y factor de k = 75, 100; conjunto de datos de 2.000 documentos y factor de k = 175, 200; y conjunto de datos de 4.000 documentos y factor de k = 275, 300. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.6 Resultados del proceso de recuperación de información del espacio semántico ’vectorial’ latente reducido ejecutado la versión hLSA con la consulta de texto de enfermedad de Lupus. Usando los esquema de ponderación de Log Entropy y TF-IDF; conjunto de datos de 1.000 documentos y factor de k = 50, 75; conjunto de datos de 3.000 documentos y factor de k = 250, 275; y conjunto de datos de 5.000 documentos y factor de k = 350, 375. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 xi 5.7 Resultados del proceso de recuperación de información del espacio semántico ’vectorial’ latente reducido ejecutado la versión hLSA con la consulta de texto de pérdida de peso por Topiramato. Usando los esquema de ponderación de Log Entropy y TF-IDF; conjunto de datos de 1.500 documentos y factor de k = 25, 50; conjunto de datos de 3.500 documentos y factor de k = 150, 175; y conjunto de datos de 4.000 documentos y factor de k = 425, 450. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.8 Descripción general de las matrices de término-documento usadas en la ejecución de la aproximación de la arquitectura hLSA out-of-core para indexar, construir, normalizar, reducir y utilizar las matrices asociadas al algoritmo LSA, así como también, recuperar información procesando la base de conocimiento completa (631.302 documentos). . 78 5.9 Resultados del tiempo de ejecución para la reducción de la dimensionalidad de los cuatro espacios semánticos ’vectoriales’ latentes (normalizados) obtenidos de la base de conocimiento a gran escala de 631.302 documentos de texto usando el algoritmo SVD por lotes y truncando sus matrices resultantes en un factor de k igual a 75 y 1.000. 79 5.10 Resultados del tiempo de ejecución para la recuperación de información de los cuatro espacios semánticos ’vectoriales’ latentes (normalizados) obtenidos de la base de conocimiento a gran escala de 631.302 documentos de texto usando el algoritmo SVD por lotes y truncando sus matrices resultantes en un factor de k igual a 75 y 1.000. . . 80 5.11 Resultados de los mejores, medianas y peores valores de precisión de las 30 consultas de texto obtenidos en las 960 ejecuciones de la versión hLSA out-of-core . . . . . . . 86
dc.format	application/PDF
dc.language.iso	spa
dc.publisher	Biblioteca Digital wdg.biblio
dc.publisher	Universidad de Guadalajara
dc.rights.uri	https://www.riudg.udg.mx/info/politicas.jsp
dc.subject	Algoritmo De Analisis Semantico
dc.title	Aceleración del Algoritmo de análisis Semántico Latente Basado en la Unidad de Procesamiento Gráfica y Múltiples Unidades de Procesamiento Central.
dc.type	Tesis de Doctorado
dc.rights.holder	Universidad de Guadalajara
dc.rights.holder	León Paredes, Gabriel Alejandro
dc.coverage	ZAPOPAN, JALISCO
dc.type.conacyt	doctoralThesis
dc.degree.name	DOCTORADO EN TECNOLOGIAS DE INFORMACION
dc.degree.department	CUCEA
dc.degree.grantor	Universidad de Guadalajara
dc.rights.access	openAccess
dc.degree.creator	DOCTOR EN TECNOLOGIAS DE INFORMACION
dc.contributor.director	Barbosa Santillán, Liliana Ibeth
Aparece en las colecciones:	CUCEA

Ficheros en este ítem:

Fichero	Tamaño	Formato
DCUCEA10066FT.pdf	10.96 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem