Desarrollo de una Herramienta de Visión por Computadora para la Generación de Datasets de Poses  Humanas Extraídas en una Secuencia de Imágenes

Nolasco Cruz, José Alberto

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/82794

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Cervantes Álvarez, Salvador
dc.contributor.advisor	Cervantes Álvarez, José Antonio
dc.contributor.author	Nolasco Cruz, José Alberto
dc.date.accessioned	2021-03-27T03:26:51Z	-
dc.date.available	2021-03-27T03:26:51Z	-
dc.date.issued	2020-09-28
dc.identifier.uri	https://hdl.handle.net/20.500.12104/82794	-
dc.identifier.uri	https://wdg.biblio.udg.mx
dc.description.abstract	Para probar la correcta funcionalidad de la herramienta se realizaron pruebas en tres escenarios diferentes, involucrando distinta iluminación y cambio de perspectiva de los elementos de interés. Obteniendo como resultado hasta un 94.05% de exactitud al detectar las 18 partes del cuerpo humano (ojo derecho, ojo izquierdo, oreja derecha, oreja izquierda, cuello, hombro derecho, codo derecho, muñeca derecha, hombro izquierdo, codo izquierdo, muñeca izquierda, cadera derecha, rodilla derecha, tobillo derecho, cadera izquierda, rodilla izquierda, tobillo izquierdo) dentro de una secuencia de imágenes. Se considera que la herramienta desarrollada puede ayudar a reducir el tiempo para generar conjunto de datos especializados en la descripción de acciones humanas. Estos conjuntos de datos pueden ser utilizados para entrenar clasificadores orientados a la detección automática de diferentes tipos de actividades, tales como agresiones físicas, robos, entre otros.
dc.description.tableofcontents	Capítulo 1. Introducción 1 1.1 Planteamiento del Problema................................................ 1 1.2 Justificación................................................................... 2 1.3 Objetivo General y Específicos............................................. 3 1.3.1 Objetivo General........................................................... 3 1.3.2 Objetivos Específicos...................................................... 3 1.4 Alcance y Limitaciones...................................................... 4 1.4.1 Alcances..................................................................... 4 1.4.2 Limitaciones................................................................ 4 1.5 Estructura del documento.................................................. 4 Capítulo 2. Fundamento Teórico...................................................... 6 2.1Inteligencia Artificial......................................................... 6 2.1.1 ¿Qué es la Inteligencia Artificial?........................................ 6 2.1.2 Clasificaciones de la IA.................................................... 6 2.2 Visión Artificial................................................................ 6 2.2.1 Estructura General de un Sistema de Visión Artificial................ 7 2.2.1.1 Adquisición de imágenes o videos..................................... 8 2.2.1.2 Preprocesamiento de Imágenes....................................... 10 2.2.1.3 Segmentación............................................................ 10 2.2.1.4 Extracción de Características......................................... 11 2.2.1.5 Reconocimiento y clasificación de patrones........................ 12 2.2.2 Etapas adicionales para el seguimiento y extracción de poses..... 12 2.2.2.1 Detección de objetos................................................... 12 2.2.2.2 Seguimiento.............................................................. 12 2.2.2.3 Estimación de pose...................................................... 13 2.3 Aprendizaje Maquina......................................................... 14 2.3.1 Aprendizaje supervisado.................................................. 14 2.3.2 Aprendizaje no supervisado.............................................. 15 2.3.3 Aprendizaje por refuerzo................................................. 16 2.3.4 Aprendizaje Profundo..................................................... 17 2.3.4.1 Redes neuronales convolucionales (CNN)............................ 17 2.3.4.2 Redes neuronales recurrentes (RNN)………………………………. 17 2.4 Metodologías de software................................................... 18 2.4.1 SCRUM........................................................................ 18 2.4.2 KANBAN....................................................................... 20 2.4.3 SCRUMBAN.................................................................... 21 Capítulo 3. Trabajos relacionados...................................................... 23 3.1 Creación de conjunto de datos y extracción de la pose del ser humano 23 3.1.1 Leeds Sports Pose Dataset................................................. 23 3.1.2 PARSE.......................................................................... 24 3.1.3 MPII Human Pose Models.................................................... 24 3.1.4 MSCOCO........................................................................ 26 3.1.5 PoseTrack...................................................................... 27 3.2 Seguimiento de personas y detección de poses............................ 28 3.2.1 Simple Online And Realtime Tracking With A Deep Asociación Metric 28 3.2.2 LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking 29 3.2.3 Detect-and-Track: Efficient Pose Estimation in Videos................. 30 3.2.4 OpenPose: Realtime Multi-Person 2D Pose Estimationusing Part Affinity Fields 31 3.3 Comparativa entre los trabajos relacionados y el actual................. 32 Capítulo 4. Solución propuesta........................................................... 35 4.1 Algoritmos para la extracción precisa de poses de seres humanos...... 35 4.1.1 Detección de personas....................................................... 35 4.1.2 Seguimiento de personas.................................................... 37 4.1.3 Pose de las personas......................................................... 38 4.2 Funcionamiento general del sistema........................................ 39 Capítulo 5. Implementación de la solución............................................ 41 5.1 Diseño de los módulos......................................................... 41 5.1.1 Diagrama de clases.......................................................... 41 5.1.2 Módulo Editor de Vídeo..................................................... 41 5.1.2.1 Diagrama de casos de uso................................................ 43 5.1.2.2 Diagramas de secuencia.................................................. 44 5.1.3 Módulo Extracción de Poses................................................ 45 5.1.3.1 Diagrama de casos de uso................................................ 47 5.1.3.2 Diagramas de secuencia.................................................. 48 5.2 Características de la implementación....................................... 48 5.2.1 Tecnologías utilizadas........................................................ 48 5.2.1.1 Ubuntu 18.................................................................... 48 5.2.1.2 Python 3.6................................................................... 49 5.2.1.3 PyQT.......................................................................... 49 5.2.1.4 OpenCV....................................................................... 49 5.2.1.5 TensorFlow................................................................... 49 5.2.1.6 Keras.......................................................................... 49 5.2.2 Infraestructura física......................................................... 50 5.3 Interfaz de usuario.............................................................. 50 5.3.1 Interfaz módulo Editor de Vídeo............................................ 50 5.3.2 Interfaz módulo Extractor de poses........................................ 52 Capítulo 6. Casos de prueba.............................................................. 56 6.1 Pruebas Editor de Vídeo........................................................ 56 6.2 Pruebas Extracción de Poses................................................... 57 6.2.1 Escenario de prueba 1........................................................ 58 6.2.2 Escenario de prueba 2........................................................ 60 6.2.3 Escenario de prueba 3........................................................ 62 6.3 Desempeño de la herramienta................................................. 64 6.3.1 Detección de personas........................................................ 64 6.3.2 Seguimiento de personas..................................................... 64 6.3.3 Extracción de poses........................................................... 65 Capítulo 7. Conclusiones y trabajos futuros............................................ 66 7.1 Conclusiones...................................................................... 66 7.2 Aportaciones...................................................................... 66 7.3 Trabajos futuros.................................................................. 67 Referencias................................................................................... 68 Índice de tablas 1 Comparación entre trabajos relacionados y el actual trabajo de tesis........... 34 2 Resultados al extraer poses escenario 1............................................... 59 3 Resultados al extraer poses escenario 2............................................... 61 4 Resultados al extraer poses escenario 3............................................... 63 5 Desempeño algoritmo YOLOv3.......................................................... 64 6 Desempeño algoritmo Deep SORT....................................................... 65 7 Desempeño algoritmo tf-pose-estimation............................................. 65 Figura 2. Principales etapas de un sistema de visión artificial....................... 8 Figura 2. Matriz de valores................................................................. 10 Figura 4. Convertir un pixel de color a RGB............................................ 10 Figura 5. Preprocesamiento de Lena...................................................... 11 Figura 6. Técnicas de segmentación.................................................... 12 Figura 7. Detección de objeto............................................................. 13 Figura 8. Seguimiento de objetos........................................................... 14 Figura 9. Seguimiento de objetos........................................................... 14 Figura 10. Diagrama del modelo de aprendizaje supervisado.......................... 15 Figura 11. Diagrama del modelo de aprendizaje no supervisado...................... 16 Figura 12. Diagrama del modelo de aprendizaje por refuerzo......................... 16 Figura 13. Infraestructura de una CNN..................................................... 17 Figura 14. Infraestructura de una RNN..................................................... 17 Figura 15. Metodología SCRUM............................................................. 18 Figura 16. Metodología KANBAN............................................................ 20 Figura 17. Representación gráfica de SCRUMBAN...................................... 21 Figura 18. Dataset............................................................................. 22 Figura 19. Extracción de las partes del cuerpo humano PARSE........................ 23 Figura 20. Models............................................................................... 24 Figura 21. Extracción de las partes del cuerpo humano MSCOCO..................... 25 Figura 22. Extracción de las partes del cuerpo humano PoseTrack................... 26 Figura 23. Deep SORT.......................................................................... 27 Figura 24. LightTrack.......................................................................... 27 Figura 25. Detect and Track.................................................................. 28 Figura 26. Extracción de las partes del cuerpo humano PoseTrack................... 28 Figura 27. Funcionamiento de YOLOv....................................................... 33 Figura 28. Red neuronal convolucional YOLOv............................................. 33 Figura 29. Red neuronal convolucional Deep SORT........................................ 34 Figura 30. 18 puntos de interés para determinar la pose de una persona........... 35 Figura 31. Red neuronal convolucional de dos ramas tf-pose-estimation............. 35 Figura 32. Diagrama general del funcionamiento de la herramienta.................. 36 Figura 33. Modelado conceptual de la herramienta HPE-RealTime.................... 37 Figura 34. Funcionalidades del módulo “Editor de Video”........................... 38 Figura 35. Diagrama de casos de uso del módulo “Editor de Video”............... 39 Figura 36. Diagrama de secuencia del módulo “Editor de Video”.................. 40 Figura 37. Funcionalidades del módulo “Extracción de Poses”...................... 41 Figura 38. Diagrama de casos de uso del módulo “Extracción de Poses”.......... 43 Figura 39. Diagrama de secuencia del módulo “Extracción de Poses”............. 43 Figura 40. Pantalla principal “Editor de Video” ........................................ 46 Figura 41. Ejecución del módulo “Editor de Video”.................................. 46 Figura 42. Pantalla principal “Extracción de Poses”................................... 47 Figura 43. Ejecución del módulo “Extracción de Poses”............................. 47 Figura 44. Archivo de texto resultante de la extracción de las poses............... 48 Figura 45. Funcionalidad para normalizar los datos..................................... 49 Figura 46. Documento con la normalización de los datos............................. 49 Figura 47. Procesamiento de un video con 65577 imágenes........................ 50 Figura 48. Guardado correcto............................................................... 51 Figura 49. Videos recortados............................................................... 51 Figura 50. Selección de una persona.......................................................52 Figura 51. Extracción de poses del escenario de prueba 1............................. 53 Figura 52. Grafica de los resultados al extraer poses escenario 1.................... 54 Figura 53. Extracción de poses del escenario de prueba 2............................. 54 Figura 54. Grafica de los resultados al extraer poses escenario 2.................... 56 Figura 55. Extracción de poses del escenario de prueba 3............................. 56 Figura 56. Grafica de los resultados al extraer poses escenario 3.................... 57 3 Ejemplo de la conversión de una imagen en escala a grises a una 18 Extracción de las partes del cuerpo humano Leeds Sports Pose 20 Extracción de las partes del cuerpo humano MPII Human Pose
dc.format	application/PDF
dc.language.iso	spa
dc.publisher	Biblioteca Digital wdg.biblio
dc.publisher	Universidad de Guadalajara
dc.rights.uri	https://www.riudg.udg.mx/info/politicas.jsp
dc.subject	Conducta
dc.subject	Algoritmos Computacionales
dc.subject	Programacion
dc.title	Desarrollo de una Herramienta de Visión por Computadora para la Generación de Datasets de Poses Humanas Extraídas en una Secuencia de Imágenes
dc.type	Tesis de Maestria
dc.rights.holder	Universidad de Guadalajara
dc.rights.holder	Nolasco Cruz, José Alberto
dc.coverage	AMECA, JALISCO
dc.type.conacyt	masterThesis	-
dc.degree.name	MAESTRIA EN INGENIERIA DE SOFTWARE	-
dc.degree.department	CUVALLES	-
dc.degree.grantor	Universidad de Guadalajara	-
dc.degree.creator	MAESTRO EN INGENIERIA DE SOFTWARE	-
Aparece en las colecciones:	CUVALLES

Ficheros en este ítem:

Fichero	Tamaño	Formato
MCUVALLES10023FT.pdf	25.57 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem