Diplomado en la modalidad de videoconferencias en línea.
En el horario establecido para cada módulo, los estudiantes tendrán clases en línea a través de la plataforma de videoconferencias Cisco Webex. Las clases se desarrollarán de forma participativa y dinámica.
Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 (videoconferencias: 120 horas).
El Diplomado contará con una aula virtual donde los participantes encontrarán material de apoyo y realizarán las actividades complementarias de aprendizaje autónomo.
Actividades autónomas de aprendizaje (40 horas).
El Diplomado en Ciencia de Datos no es una carrera de cuarto nivel, por lo que no está registrado en la SENESCYT.
El Diplomado en Ciencia de Datos está constituido por 5 módulos:
En el Módulo 1: «Fundamentos de Estadística» se analizarán los conceptos básicos de la teoría estadística. Permitirá a los cursantes disponer de la base conceptual y de las herramientas mínimas para manejar, interpretar y extraer conclusiones iniciales de la data de interés.
Convertir datos en información es relevante para la toma de decisiones en la gestión pública y privada. R es un lenguaje de programación versátil que permite el manejo efectivo de grandes volúmenes de información. Es importante el hecho de que es un software de uso libre ampliamente utilizado por la comunidad científica mundial, por lo que, el Módulo 2: «Fundamentos de Programación con R» tiene un enfoque especializado de carácter estadístico sin dejar de lado otras múltiples aplicaciones.
En el Módulo 3: «Estadística Aplicada con R» se aplicarán los conceptos básicos de la teoría estadística, optimizando las rutinas y procesos a través de la programación con R. El modulo proveerá a los asistentes de los conceptos y las herramientas para aplicar las técnicas estadísticas de forma eficiente.
En el Módulo 4: «Machine Learning 1» (Aprendizaje de Máquina 1) se pretende explorar la teoría del aprendizaje de máquina, examinar sus aplicaciones y ofrecer las herramientas necesarias para descubrir información en conjuntos de datos grandes, por lo que a lo largo del módulo, los participantes desarrollarán conocimientos generales sobre los enfoques y metodologías de machine learning (Regresión) con R, por medio del uso de metodologías activas de aprendizaje como es el learning by doing, con la finalidad de extraer información relevante usando la rigurosidad científica de los métodos y aplicando soluciones prácticas con el software R en el ámbito laboral.
En el Módulo 5: «Machine Learning 2» (Aprendizaje de Máquina 2) se dará continuidad a la exploración de la teoría del aprendizaje de máquina, se examinará sus aplicaciones y se ofrecerá las herramientas necesarias para descubrir información en conjuntos de datos grandes.
El cronograma de los 5 módulos es el siguiente:
Módulos | Horas sincrónicas | Horas asincrónicas | Total de horas | Horario de las videoconferencias | Inicio del módulo | Fin del módulo |
Módulo 1: Fundamentos de Estadística | 24 | 8 | 32 | Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 | 24 de abril de 2023 | 08 de mayo de 2023 |
Módulo 2: Fundamentos de Programación con R | 24 | 8 | 32 | Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 | 15 de mayo de 2023 | 29 de mayo de 2023 |
Módulo 3: Estadística Aplicada con R | 24 | 8 | 32 | Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 | 05 de junio de 2023 | 16 de junio de 2023 |
Módulo 4: Machine Learning 1 | 24 | 8 | 32 | Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 | 26 de junio de 2023 | 07 de julio de 2023 |
Módulo 5: Machine Learning 2 | 24 | 8 | 32 | Lunes a jueves de 18:00 a 20:30 y viernes de 18:00 a 20:00 | 17 de julio de 2023 | 28 de julio de 2023 |
Nota: el lunes 01 y el viernes 26 de mayo no hay clases por los feriados correspondientes.
Inscríbase siguiendo los pasos del vídeo: https://youtu.be/n4zzsWgOyfo
Si el Diplomado es auspiciado por su INSTITUCIÓN, sírvase enviar un correo electrónico a: ventas@cec-epn.edu.ec |
Eco. Felipe Guevara, Mgs
INSTRUCCIÓN:
Magister en Estadística Aplicada
Economista
EXPERIENCIA:
Más de 15 años de experiencia en temas de análisis de información, encuestas, estudios, metodologías de análisis financiero, modelos matemáticos, generación estadística y administración de riesgo.
Ing. Víctor Terán, Mgs.
INSTRUCCIÓN:
Magister en Riesgos Financieros.
Ingeniero en Banca y Finanzas.
EXPERIENCIA:
Dominio en campos como Riesgos Financieros, Estadística, Big Data y Analítica Avanzada de Datos.
Amplia experiencia en el sector público y privado como especialista en el área de operaciones, finanzas y evaluación de riesgos financieros en varios bancos locales y del extranjero.
Consultor e instructor en temas relacionados a Big Data y Analítica Avanzada de Datos.
Ing. Elena Chicaiza, Ph.D
INSTRUCCIÓN:
Doctora en Ingeniería Geográfica.
Master en Planificación y Desarrollo Territorial Sostenible.
Master en Auditoría Ambiental.
Especialista Superior en Infraestructura de Datos Espaciales.
Ingeniera Geógrafa y del Medio Ambiente.
EXPERIENCIA:
Más de 15 años de experiencia en Capacitación Analítica de Datos, Modelización, Evaluación de la Calidad de Datos, Geoestadísitica, Introducción a R, Minería de Datos, Auditorías Ambientales y Estudios de Impacto Ambiental.
Ing, Xavier Buenaño, Ph.D
INSTRUCCIÓN:
Doctor en Modelización, Investigación y Análisis del Riesgo en Medio Ambiente.
Master Universitario en Modelización, Investigación y Análisis del Riesgo en Medio Ambiente
Diplomado Superior en Seguridad y Salud Ocupacional
Magister en Gestión Ambiental
Ingeniero Geógrafo y del Medio Ambiente
EXPERIENCIA:
Más de 15 años de experiencia en modelación geoestadística, geoquímica, hidrogeología, climatológica. Data analytics. Gestión de base de datos geológica.
Conocimientos:
Conocimiento básicos de Matemáticas y Computación
Técnicos para las videoconferencias
- Navegador de internet: Mozilla Firefox o Google Chrome. No utilice el navegador Internet Explorer.
- JavaScript y cookies habilitadas en los navegadores.
- No se requiere Java para los usuarios de Mozilla Firefox y Google Chrome (si su sistema Operativo es Windows).
- Oracle Java 6 a Oracle Java 8 (si su sistema Operativo es Mac OS, versión 10.13 en adelante).
- Oracle Java 6 a Oracle Java 8, libstdc++ 6.0, sistema de ventanas GNOME/KDE (si su sistema Operativo es Linux).
- Procesador: 1GHz (mínimo), se recomienda 2 GHZ doble núcleo o más.
- Memoria 1 GB de RAM mínimo, se recomienda 2 GB.
- Audífonos o parlantes.
Estudiantes, profesionales, público en general.
Cualquier forma de pago
- Pronto pago: 10%
- Pronto pago, cliente frecuente: 15% (se considera cliente frecuente, al estudiante que ha tomado cursos en la modalidad en vivo o presenciales en los últimos 6 meses)
- Pronto pago, grupos de 3 o más personas: 15% (se emitirá una sola factura por el grupo)
- Personas de la tercera edad: 50%
- Personas con discapacidad: % según el grado indicado en el carnet.
Se considera pronto pago a aquel realizado 48 horas antes del inicio del curso.
Se entregará un certificado por cada módulo aprobado y por el Diplomado cuando se hayan aprobado los 5 módulos.
Robert Mena: rmena@cec-epn.edu.ec
Teléfonos: 2525766 Ext. 125 / 102 / 143
Inscripciones hasta el jueves 20 de abril de 2023
El Diplomado se abrirá cuando se cumpla con un número mínimo de participantes.
MÓDULO 1: FUNDAMENTOS DE ESTADÍSTICA
UNIDAD 1. Estadística Descriptiva (5 horas)
1.1 Orígenes y consideraciones relevantes
1.2 Medidas de tendencia central
1.3 Medidas de tendencia no central
1.4 Medidas de dispersión
1.5 Medidas de Forma
1.6 Representaciones gráficas
UNIDAD 2. Probabilidad (4 horas)
2.1 Consideraciones iniciales (sucesos, conjuntos)
2.2 La probabilidad y sus propiedades
2.3 Variables aleatoria
Características: esperanza y varianza
2.4 Modelos para variables aleatorias
Distribución Normal
Distribución Binomial
Distribución de Poisson
Otras distribuciones continuas y discretas
UNIDAD 3. Inferencia Estadística (5 horas)
3.1 Consideraciones relevantes
3.2 ¿Qué es una muestra?
3.3 Distribuciones asociadas al muestreo en poblaciones normales
Chi-cuadrado o de Pearson
t-Student
F-Snedecord
UNIDAD 4. Estimación puntual y por intervalos (8 horas)
4.1 Consideraciones relevantes
4.2 Propiedades de los estimadores
4.3 Obtención de estimadores
4.4 Distribución de los estimadores asociados a la población
Teorema del límite central
4.5 Estimación por intervalos
Intervalo de confianza para la media
Intervalo de confianza para la proporción
UNIDAD 5. Contraste de Hipótesis (10 horas)
5.1 Definición
5.2 Errores en el contraste
5.3 Tipos de constrastes de hipótesis
5.4 Constrastes para una y dos muestras
Tamaño de la muestra
Constraste de bondad de ajuste
Constraste para más de dos muestras. ANOVA
5.5 Correlación
5.6 Detección y tratamiento de outliers
MÓDULO 2: FUNDAMENTOS DE PROGRAMACIÓN CON R
UNIDAD 1. INTRODUCCIÓN A LA PROGRAMACIÓN (4 horas)
1.1 Codificación de la información
1.2 Tipos de lenguajes de programación
1.3 Algoritmos y pensamiento lógico
1.4 Paradigmas de programación
UNIDAD 2. INTRODUCCIÓN A R (4 horas)
2.1 ¿Qué es R?
2.2 Instalación de R y RStudio
2.3 Entorno y configuración de RStudio
2.4 Tipos de datos y sintaxis del lenguaje
2.5 Flujo de trabajo: Primeros pasos con R
UNIDAD 3. ESTRUCTURAS DE DATOS (4 horas)
3.1 Vectores
3.2 Listas
3.3 Matrices
3.4 Factores
3.5 Data frames
UNIDAD 4. TRANSFORMACIÓN Y EXPLORACIÓN DE DATOS (8 horas)
4.1 Importación de datos
4.2 Ordenamiento de datos con tidyverse
4.3 Transformación de datos con dplyr
4.4 Análisis exploratorio de datos (EDA)
UNIDAD 5. ESTRUCTURAS DE CONTROL Y FUNCIONES (8 horas)
5.1 Estructuras iterativas
5.2 Estructuras condicionales
5.3 ¿Qué es una función?
5.4 Tipos y evaluación de argumentos
UNIDAD 6. VISUALIZACIÓN DE DATOS (4 horas)
6.1 Tipos de visualizaciones
6.2 Paquetes de visualización en R
6.3 Introducción a ggplot2
MÓDULO 3: ESTADÍSTICA APLICADA CON R
UNIDAD 1. ESTADÍSTICA DESCRIPTIVA EN R (8 horas)
1.1 Análisis exploratorio de datos con tidyverse
1.1.1 Estadística descriptiva univariante y bivariante
1.1.2 Graficación
1.2 Depuración de datos con tidyverse
1.3 Estadística multivariante
1.3.1 Con variables cualitativas y cuantitativas
UNIDAD 2. ESTADÍSTICA INFERENCIAL BÁSICA (8 horas)
2.1 Contrastes estadísticos simples (Pruebas)
2.1.1 Prueba de independencia a partir de tablas de contingencia
2.1.2 Prueba de correlación en población
2.1.3 Prueba t para grupos independientes y dependientes
UNIDAD 3. ESTADÍSTICA INFERENCIAL AVANZADA (10 horas)
3.1 Análisis de la varianza
3.1.1 Terminología
3.1.2 La función aov
3.1. ANOVA de una vía
3.1.1 Comparaciones múltiples
3.2 Verificación de supuestos
UNIDAD 4. REPORTERÍA (6 horas)
4.1 Generación de reportes de análisis de datos
4.1.1 Cabecera YALM
4.1.2 Chunks
4.2 Parametrización
4.3 Personalización de reportes
MÓDULO 4: MACHINE LEARNING 1
UNIDAD 1. PREPROCESAMIENTO Y AJUSTE (8 horas)
1.1 Librería tidymodels
1.2 Feature Engineering (Librería recipes)
1.3 Ajuste de Modelos (Librería parsnip)
1.4 Flujo de modelos
1.5 Métricas de rendimiento
UNIDAD 2. INTRODUCCIÓN A LA REGRESIÓN CON TIDYMODELS (8 horas)
2.1 Introducción a la regresión lineal
2.1.1 Obteniendo datos
2.1.2 Particionamiento de datos
2.1.3 Especificación de modelo
2.1.4 Ajuste a datos de entrenamiento
2.1.5 Evaluando la exactitud de los datos de evaluación
UNIDAD 3. CREACIÓN DE UN FLUJO DE TRABAJO DE MACHINE LEARNING (8 horas)
3.1 Partición de datos
3.2 Feature Engineering
3.3 Especificación de un modelo
3.4 Creación de un flujo de trabajo
3.5 Ejecución de un flujo de trabajo
UNIDAD 4. EVALUACIÓN DEL MODELO (8 horas)
4.1 Cálculo de ajuste del modelo
4.1.1 Coeficiente de Determinación
4.1.2 Gráfica de ajuste
4.2 Otras métricas de ajuste
4.2.1 Criterio de información de Akaike
4.2.2 Criterio de información Bayessiano
4.3 Importancia de Variables
MÓDULO 5: MACHINE LEARNING 2
UNIDAD 1. REGRESIÓN LOGÍSTICA (8 horas)
1.1 Introducción a la clasificación (Regresión Logística)
1.1.1 Partición de datos
1.1.2 Feature Engineering
1.1.3 Especificación del modelo
1.1.4 Creación del Flujo de trabajo
1.1.5 Ajuste del modelo
1.1.6 Evaluación del rendimiento del modelo
1.1.7 Automatización del proceso
UNIDAD 2. ANÁLISIS DISCRIMINANTE Y K-VECINOS MÁS CERCANOS (8 horas)
2.1 Análisis discriminante lineal
2.1.1 Partición de Datos y Feature Engineering
2.1.2 Especificación del modelo y Creación de flujo de trabajo
2.1.3 Entrenamiento y evaluación con last_fit
2.2 Análisis discriminante cuadrático
2.3 K vecinos más cercanos
2.4 Ajuste de Hiperparámetros
2.5 Métricas de evaluación
2.5.1 Matriz de confusión
2.5.2 Curva ROC
UNIDAD 3. ÁRBOLES DE DECISIÓN Y BOSQUES ALEATORIOS (8 horas)
3.1 Árboles de decisión
3.1.1 Partición de datos, Feature Engineering y Especificación de modelo
3.1.2 Flujo de Trabajo y Afinamiento de Hiperparámetros
3.1.2.1 Costo
3.1.2.2 Entropía
3.2 Bosques Aleatorios
3.2.1 Partición de datos, Feature Engineering y Especificación de modelo
3.2..2 Flujo de Trabajo y Afinamiento de Hiperparámetros
UNIDAD 4. APRENDIZAJE NO SUPERVISADO (8 horas)
4.1 Métodos de componentes principales
4.1.1 Análisis de componentes principales (Variables cuantitativas)
4.1.2 Análisis de correspondencia (Variables cualitativas)
4.2 Métodos de Clústering
4.2.1 K-medias, K-medioides, PAM
4.2.2 Clúster jerárquico
Diplomado en Ciencia de Datos