Diplomado en Ciencia de Datos - 8va Edición 2023
Diplomado en la modalidad Online
En el horario establecido para cada módulo, los estudiantes tendrán clases en línea a través de la plataforma de videoconferencias Cisco Webex. Las clases se desarrollarán de forma participativa y dinámica.
Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 (videoconferencias: 120 horas).
El Diplomado contará con una aula virtual donde los participantes encontrarán material de apoyo y realizarán las actividades complementarias de aprendizaje autónomo.
Actividades autónomas de aprendizaje (40 horas).
El Diplomado en Ciencia de Datos no es una carrera de cuarto nivel, por lo que no está registrado en la SENESCYT.
El Diplomado en Ciencia de Datos está constituido por 5 módulos:
En el Módulo 1: “Fundamentos de Estadística” se analizarán los conceptos básicos de la teoría estadística. Permitirá a los cursantes disponer de la base conceptual y de las herramientas mínimas para manejar, interpretar y extraer conclusiones iniciales de la data de interés.
Convertir datos en información es relevante para la toma de decisiones en la gestión pública y privada. R es un lenguaje de programación versátil que permite el manejo efectivo de grandes volúmenes de información. Es importante el hecho de que es un software de uso libre ampliamente utilizado por la comunidad científica mundial, por lo que, el Módulo 2: “Fundamentos de Programación con R” tiene un enfoque especializado de carácter estadístico sin dejar de lado otras múltiples aplicaciones.
En el Módulo 3: “Estadística Aplicada con R” se aplicarán los conceptos básicos de la teoría estadística, optimizando las rutinas y procesos a través de la programación con R. El modulo proveerá a los asistentes de los conceptos y las herramientas para aplicar las técnicas estadísticas de forma eficiente.
En el Módulo 4: “Machine Learning 1” (Aprendizaje de Máquina 1) se pretende explorar la teoría del aprendizaje de máquina, examinar sus aplicaciones y ofrecer las herramientas necesarias para descubrir información en conjuntos de datos grandes, por lo que a lo largo del módulo, los participantes desarrollarán conocimientos generales sobre los enfoques y metodologías de machine learning (Regresión) con R, por medio del uso de metodologías activas de aprendizaje como es el learning by doing, con la finalidad de extraer información relevante usando la rigurosidad científica de los métodos y aplicando soluciones prácticas con el software R en el ámbito laboral.
En el Módulo 5: “Machine Learning 2” (Aprendizaje de Máquina 2) se dará continuidad a la exploración de la teoría del aprendizaje de máquina, se examinará sus aplicaciones y se ofrecerá las herramientas necesarias para descubrir información en conjuntos de datos grandes.
El cronograma de los 5 módulos es el siguiente:
Módulo 1: Fundamentos de Estadística
Módulo 2: Fundamentos de Programación con R
Módulo 3: Estadística Aplicada con R
Módulo 4: Machine Learning 1
Módulo 5: Machine Learning 2
Inscríbase siguiendo los pasos del vídeo: https://youtu.be/n4zzsWgOyfo
Si el Diplomado es auspiciado por su INSTITUCIÓN, sírvase enviar un correo electrónico a: ventas@cec-epn.edu.ec |
General
Conocimientos:
Conocimiento básicos de Matemáticas y Computación
Técnicos para las videoconferencias
- Navegador de internet: Mozilla Firefox o Google Chrome. No utilice el navegador Internet Explorer.
- JavaScript y cookies habilitadas en los navegadores.
- No se requiere Java para los usuarios de Mozilla Firefox y Google Chrome (si su sistema Operativo es Windows).
- Oracle Java 6 a Oracle Java 8 (si su sistema Operativo es Mac OS, versión 10.13 en adelante).
- Oracle Java 6 a Oracle Java 8, libstdc++ 6.0, sistema de ventanas GNOME/KDE (si su sistema Operativo es Linux).
- Procesador: 1GHz (mínimo), se recomienda 2 GHZ doble núcleo o más.
- Memoria 1 GB de RAM mínimo, se recomienda 2 GB.
- Audífonos o parlantes.
Estudiantes, profesionales, público en general.
Cualquier forma de pago
- Pronta inscripción (hasta 48 horas antes del inicio): 10%- Solamente para Diplomados
- 12% de descuento a empresas que inscriban grupos de tres a más personas
- 10% de descuento para cliente frecuente (tomaron cursos en los últimos 6 meses)
- Personas de la tercera edad: 50%
- Personas con discapacidad: % según el grado indicado en el carnet.
Se entregará un certificado por cada módulo aprobado y por el Diplomado cuando se hayan aprobado los 5 módulos.
Fernanda Albán: palban@cec-epn.edu.ec
Teléfonos: 2525766 Ext. 102 / 125 / 143
Inscripciones hasta el viernes 06 de octubre de 2023
Los pagos se recibirán hasta el lunes 09 de octubre de 2023.
El curso se abrirá cuando se cumpla con un número mínimo de participantes.
Contenido
MÓDULO 1: FUNDAMENTOS DE ESTADÍSTICA
UNIDAD 1. Estadística Descriptiva (5 horas)
1.1 Orígenes y consideraciones relevantes
1.2 Medidas de tendencia central
1.3 Medidas de tendencia no central
1.4 Medidas de dispersión
1.5 Medidas de Forma
1.6 Representaciones gráficas
UNIDAD 2. Probabilidad (4 horas)
2.1 Consideraciones iniciales (sucesos, conjuntos)
2.2 La probabilidad y sus propiedades
2.3 Variables aleatoria
Características: esperanza y varianza
2.4 Modelos para variables aleatorias
Distribución Normal
Distribución Binomial
Distribución de Poisson
Otras distribuciones continuas y discretas
UNIDAD 3. Inferencia Estadística (5 horas)
3.1 Consideraciones relevantes
3.2 ¿Qué es una muestra?
3.3 Distribuciones asociadas al muestreo en poblaciones normales
Chi-cuadrado o de Pearson
t-Student
F-Snedecord
UNIDAD 4. Estimación puntual y por intervalos (8 horas)
4.1 Consideraciones relevantes
4.2 Propiedades de los estimadores
4.3 Obtención de estimadores
4.4 Distribución de los estimadores asociados a la población
Teorema del límite central
4.5 Estimación por intervalos
Intervalo de confianza para la media
Intervalo de confianza para la proporción
UNIDAD 5. Contraste de Hipótesis (10 horas)
5.1 Definición
5.2 Errores en el contraste
5.3 Tipos de constrastes de hipótesis
5.4 Constrastes para una y dos muestras
Tamaño de la muestra
Constraste de bondad de ajuste
Constraste para más de dos muestras. ANOVA
5.5 Correlación
5.6 Detección y tratamiento de outliers
MÓDULO 2: FUNDAMENTOS DE PROGRAMACIÓN CON R
UNIDAD 1. INTRODUCCIÓN A LA PROGRAMACIÓN (4 horas)
1.1 Codificación de la información
1.2 Tipos de lenguajes de programación
1.3 Algoritmos y pensamiento lógico
1.4 Paradigmas de programación
UNIDAD 2. INTRODUCCIÓN A R (4 horas)
2.1 ¿Qué es R?
2.2 Instalación de R y RStudio
2.3 Entorno y configuración de RStudio
2.4 Tipos de datos y sintaxis del lenguaje
2.5 Flujo de trabajo: Primeros pasos con R
UNIDAD 3. ESTRUCTURAS DE DATOS (4 horas)
3.1 Vectores
3.2 Listas
3.3 Matrices
3.4 Factores
3.5 Data frames
UNIDAD 4. TRANSFORMACIÓN Y EXPLORACIÓN DE DATOS (8 horas)
4.1 Importación de datos
4.2 Ordenamiento de datos con tidyverse
4.3 Transformación de datos con dplyr
4.4 Análisis exploratorio de datos (EDA)
UNIDAD 5. ESTRUCTURAS DE CONTROL Y FUNCIONES (8 horas)
5.1 Estructuras iterativas
5.2 Estructuras condicionales
5.3 ¿Qué es una función?
5.4 Tipos y evaluación de argumentos
UNIDAD 6. VISUALIZACIÓN DE DATOS (4 horas)
6.1 Tipos de visualizaciones
6.2 Paquetes de visualización en R
6.3 Introducción a ggplot2
MÓDULO 3: ESTADÍSTICA APLICADA CON R
UNIDAD 1. ESTADÍSTICA DESCRIPTIVA EN R (8 horas)
1.1 Análisis exploratorio de datos con tidyverse
1.1.1 Estadística descriptiva univariante y bivariante
1.1.2 Graficación
1.2 Depuración de datos con tidyverse
1.3 Estadística multivariante
1.3.1 Con variables cualitativas y cuantitativas
UNIDAD 2. ESTADÍSTICA INFERENCIAL BÁSICA (8 horas)
2.1 Contrastes estadísticos simples (Pruebas)
2.1.1 Prueba de independencia a partir de tablas de contingencia
2.1.2 Prueba de correlación en población
2.1.3 Prueba t para grupos independientes y dependientes
UNIDAD 3. ESTADÍSTICA INFERENCIAL AVANZADA (10 horas)
3.1 Análisis de la varianza
3.1.1 Terminología
3.1.2 La función aov
3.1. ANOVA de una vía
3.1.1 Comparaciones múltiples
3.2 Verificación de supuestos
UNIDAD 4. REPORTERÍA (6 horas)
4.1 Generación de reportes de análisis de datos
4.1.1 Cabecera YALM
4.1.2 Chunks
4.2 Parametrización
4.3 Personalización de reportes
MÓDULO 4: MACHINE LEARNING 1
UNIDAD 1. PREPROCESAMIENTO Y AJUSTE (8 horas)
1.1 Librería tidymodels
1.2 Feature Engineering (Librería recipes)
1.3 Ajuste de Modelos (Librería parsnip)
1.4 Flujo de modelos
1.5 Métricas de rendimiento
UNIDAD 2. INTRODUCCIÓN A LA REGRESIÓN CON TIDYMODELS (8 horas)
2.1 Introducción a la regresión lineal
2.1.1 Obteniendo datos
2.1.2 Particionamiento de datos
2.1.3 Especificación de modelo
2.1.4 Ajuste a datos de entrenamiento
2.1.5 Evaluando la exactitud de los datos de evaluación
UNIDAD 3. CREACIÓN DE UN FLUJO DE TRABAJO DE MACHINE LEARNING (8 horas)
3.1 Partición de datos
3.2 Feature Engineering
3.3 Especificación de un modelo
3.4 Creación de un flujo de trabajo
3.5 Ejecución de un flujo de trabajo
UNIDAD 4. EVALUACIÓN DEL MODELO (8 horas)
4.1 Cálculo de ajuste del modelo
4.1.1 Coeficiente de Determinación
4.1.2 Gráfica de ajuste
4.2 Otras métricas de ajuste
4.2.1 Criterio de información de Akaike
4.2.2 Criterio de información Bayessiano
4.3 Importancia de Variables
MÓDULO 5: MACHINE LEARNING 2
UNIDAD 1. REGRESIÓN LOGÍSTICA (8 horas)
1.1 Introducción a la clasificación (Regresión Logística)
1.1.1 Partición de datos
1.1.2 Feature Engineering
1.1.3 Especificación del modelo
1.1.4 Creación del Flujo de trabajo
1.1.5 Ajuste del modelo
1.1.6 Evaluación del rendimiento del modelo
1.1.7 Automatización del proceso
UNIDAD 2. ANÁLISIS DISCRIMINANTE Y K-VECINOS MÁS CERCANOS (8 horas)
2.1 Análisis discriminante lineal
2.1.1 Partición de Datos y Feature Engineering
2.1.2 Especificación del modelo y Creación de flujo de trabajo
2.1.3 Entrenamiento y evaluación con last_fit
2.2 Análisis discriminante cuadrático
2.3 K vecinos más cercanos
2.4 Ajuste de Hiperparámetros
2.5 Métricas de evaluación
2.5.1 Matriz de confusión
2.5.2 Curva ROC
UNIDAD 3. ÁRBOLES DE DECISIÓN Y BOSQUES ALEATORIOS (8 horas)
3.1 Árboles de decisión
3.1.1 Partición de datos, Feature Engineering y Especificación de modelo
3.1.2 Flujo de Trabajo y Afinamiento de Hiperparámetros
3.1.2.1 Costo
3.1.2.2 Entropía
3.2 Bosques Aleatorios
3.2.1 Partición de datos, Feature Engineering y Especificación de modelo
3.2..2 Flujo de Trabajo y Afinamiento de Hiperparámetros
UNIDAD 4. APRENDIZAJE NO SUPERVISADO (8 horas)
4.1 Métodos de componentes principales
4.1.1 Análisis de componentes principales (Variables cuantitativas)
4.1.2 Análisis de correspondencia (Variables cualitativas)
4.2 Métodos de Clústering
4.2.1 K-medias, K-medioides, PAM
4.2.2 Clúster jerárquico
Instructor
Eco. Felipe Guevara, Mgs
INSTRUCCIÓN:
Magister en Estadística Aplicada
Economista
EXPERIENCIA:
Más de 15 años de experiencia en temas de análisis de información, encuestas, estudios, metodologías de análisis financiero, modelos matemáticos, generación estadística y administración de riesgo.
Eco. Fernando Romero, MBA.
INSTRUCCIÓN:
Magister en Administración de Empresas y Marketing.
Magister en Docencia Universitaria y Administración Educativa.
Diplomado en Gestión Administrativa.
Especialista en Gestión de Marketing.
Especialista en Diseño Curricular por Competencias.
Economista.
EXPERIENCIA:
Más de 15 años de experiencia en: Marketing y Ventas, Proyectos, Administración, Recursos Humanos, Procesos Industriales / Calidad, Bases de Datos, Ofimática.
Ing. Wilson Quito, MSc.
INSTRUCCIÓN:
Ingeniero en Electrónica, Automatización y Control.
Magister en Gerencia de Empresas con énfasis en el sector energético – Minero.
EXPERIENCIA:
Más de 20 años de experiencia en: TCP/IP, Ofimática, Proyectos informáticos, Redes y Cableado estructurado, Bases de Datos, VBA, Excel avanzado, Estadística con SPSS – STATA – R CRAN – Excel, Shiny, Power Pivot.
Ing, Xavier Buenaño, Ph.D
INSTRUCCIÓN:
Doctor en Modelización, Investigación y Análisis del Riesgo en Medio Ambiente.
Master Universitario en Modelización, Investigación y Análisis del Riesgo en Medio Ambiente
Diplomado Superior en Seguridad y Salud Ocupacional
Magister en Gestión Ambiental
Ingeniero Geógrafo y del Medio Ambiente
Ing. Elena Chicaiza, Ph.D
INSTRUCCIÓN:
Doctora en Ingeniería Geográfica.
Master en Planificación y Desarrollo Territorial Sostenible.
Master en Auditoría Ambiental.
Especialista Superior en Infraestructura de Datos Espaciales.
Ingeniera Geógrafa y del Medio Ambiente.
EXPERIENCIA:
Más de 15 años de experiencia en Capacitación Analítica de Datos, Modelización, Evaluación de la Calidad de Datos, Geoestadísitica, Introducción a R, Minería de Datos, Auditorías Ambientales y Estudios de Impacto Ambiental.
Próximos inicios
Diplomado en Ciencia de Datos - 8va Edición 2023