Minería de Datos
El curso pretende explorar la teoría de la minería de datos, examinar sus aplicaciones y ofrecer las herramientas necesarias para descubrir información en conjuntos de datos grandes, por lo que al finalizar el curso, los participantes podrá extraer información relevante de los mismos, usando la rigurosidad científica de los métodos y aplicando soluciones prácticas con el software que se utilice.
Sede: Edificio de Aulas y Relación con el Medio Externo (EARME).
General
Conocimientos básicos de Computación, Estadística y Matemáticas.
Estudiantes, profesionales, mandos medios.
Se entregará solamente cuando se haya aprobado el curso.
ventas@cec-epn.edu.ec
2525766 Ext. 114 / 122/ 145/ 156
Contenido
UNIDAD 1. INTRODUCCIÓN A LA MINERÍA DE DATOS. (2 Horas)
1.1. Qué es y qué no es minería de datos.
1.2. Ejemplos de casos que usan minería de datos.
1.3. Tipos de minería de datos.
1.4. Algoritmos en minería de datos.
1.5. Herramientas informáticas empleadas en minería de datos.
1.5.1. Ventajas y desventajas con el uso de R.
UNIDAD 2. INTRODUCCIÓN A LA ESTADÍSTICA Y A R. (6 Horas)
2.1. Análisis exploratorio de datos
2.1.1. Principales gráficas y estadísticos
2.1.2. Control de calidad y depuración de datos
2.2. Teoría de Probabilidades
2.2.1. Teorema de Bayes o Probabilidad Condicionada
2.3. Regresión Lineal y sus variantes
2.3.1. Supuestos estadísticos
2.3.2. Test de dependencia (Chi-cuadrado)
2.4. R y RStudio
2.4.1. Interfaz de usuario
2.4.2. Repositorios y herramientas de importación/exportación
2.4.3. Herramientas de visualización de datos
2.4.4. Herramientas de transformación de datos
2.4.5. Herramientas de muestreo y valores perdidos
2.5. Ejercicios prácticos
UNIDAD 3. ALGORITMOS DE CLASIFICACIÓN Y REGRESIÓN. (20 Horas)
3.1. Algoritmos de regresión
3.2. Regresión lineal
3.2.1. Validación
3.2.2. Selección del mejor modelo
3.3. Algoritmos de clasificación
3.3.1. Regresión logística
3.3.2. Análisis discriminante
3.3.3. Naive Bayesiano
3.3.4. Máquina de soporte vectorial (SVM)
3.3.5. Evaluación de modelos de clasificación
UNIDAD 4. APRENDIZAJE DE MÁQUINA ESTADÍSTICO. (9 Horas)
4.1. K-vecinos más cercanos
4.2. Árboles de decisión (CART)
4.3. Re-muestreo agregado (Bagging)
4.4. Boosting
4.5. Redes neuronales
UNIDAD 5. CLASIFICACIÓN NO SUPERVISADA. (3 Horas)
5.1. Métodos de componentes principales
5.1.1. Análisis de componentes principales
5.1.2. Análisis de correspondencia
Instructor
INSTRUCCIÓN:
Doctor en Modelización, Investigación y Análisis del Riesgo en Medio Ambiente.
Master Universitario en Modelización, Investigación y Análisis del Riesgo en Medio Ambiente
Diplomado Superior en Seguridad y Salud Ocupacional
Magister en Gestión Ambiental
Ingeniero Geógrafo y del Medio Ambiente
EXPERIENCIA:
15 años de experiencia en modelación geoestadística, geoquímica, hidrogeología, climatológica. Data analytics. Gestión de base de datos geológica