- Introducción
- Pre requisitos del curso
- Conoce a tu instructor online, Juan Gabriel Gomila
- Acerca de la valoración prematura del curso en Udemy
- Cómo instalar Python con Anaconda Navigator
- Las librerías estándar de Machine Learning en Python
- IMPORTANTE: Entornos y versiones de Python - Todo lo que necesitas saber
- Los editores para programar en Python
- IMPORTANTE: Algunos cambios en la versión 3.7 de Python
- Las 5 etapas del análisis de datos
- Comunidad de estudiantes del curso
- Ser Data Scientist es la profesión más sexy del siglo XXI
- ¿Qué es el análisis predictivo de datos?
- Data Scientist = Matemáticas + Programación + Business
- Aplicaciones y ejemplos del mundo del Data Science
- Data Cleaning
- El concepto de data frame
- El repositorio Git del curso
- ¿Qué hago si no me autocompleta Jupyter?
- Acerca de las barras en Windows
- Leer datos procedentes de un CSV
- Los parámetros de la función read_csv
- Ejemplos de diferentes carga de datos con read_csv
- El método open para la carga manual de datos
- Cuidado con el método open
- Leer y escribir en un fichero con Python
- Leer los datos desde una URL externa
- La carga de datos desde una hoja de cálculo
- Ejercicio: descargar y procesar datos desde una URL externa
- Las funciones básicas de resumen, estructura, dimensiones y cabecera
- ¿Por qué faltan valores en los data sets?
- Qué hacer cuando faltan valores en el dataset
- Las variables dummy
- Visualización básica de un dataset: el scatterplot
- Visualización básica de un dataset: el histograma de frecuencias
- Visualización básica de un dataset: el boxplot
- Data Wrangling
- Una chuleta de pandas para Data Wrangling
- Fe de erratas
- Buscar un subconjunto de datos de un dataset
- Filtrados alternativos
- Subconjuntos de filas con ciertas condiciones
- Subconjuntos con loc e iloc y creación de nuevas columnas
- Generar números aleatorios
- La semilla de la generación aleatoria
- Funciones de distribución de probabilidades
- La distribución uniforme
- La distribución Normal
- El método de la simulación de Monte-Carlo para encontrar el valor de Pi
- Generando dummy data frames
- Un dummy data frame con variables categóricas
- Agrupación de los datos por categorías
- Agregación de datos
- Filtrado, Transformación y otras operaciones útiles
- Conjunto de entrenamiento y de testing
- Atualización: cómo dividir conjunto de entrenamiento y test
- Muestreo aleatorio: cómo dividir un dataset en conjunto de entreno y validación
- Concatenar dos datasets por filas
- Carga de cientos de datos distribuidos
- Ejercicio: el data set de los juegos olímpicos
- Concatenar los datos con merge
- Formas de cruzar tablas con joins
- Eliminar datos de datasets con restricciones de conjunto
- Ejemplos de joins con Python
- Ya conoces las bases del manejo de datos
- ¿Te gusta el curso? ¡Valóralo y cuéntanos tu opinión!
- Los conceptos fundamentales de estadística
- Un resumen de los estadísticos básicos (en R)
- El resumen de estadísticos en Python (propuesta de un estudiante)
- Muestreo aleatorio y el teorema central del límite
- Los contrastes de hipótesis
- Cómo hacer un contraste de hipótesis paso a paso
- Test de la chi cuadrado
- Correlación entre variables
- Un resumen de lo aprendido
- La regresión lineal
- Las matemáticas tras una regresión lineal
- Demostración de la obtención de los parámetros del modelo lineal
- Errores normalmente distribuidos
- Sumas de los cuadrados totales, de las diferencias y de la regresión
- Ejercicio demostrar que SST = SSR + SSD
- Encontrando los coeficientes óptimos de la regresión
- Interpretar los parámetros de la regresión
- Implementar una regresión lineal con Python
- Regresión lineal múltiple
- El problema de la multicolinealidad
- Validando nuestro modelo
- El resumen de todos los modelos lineales creados
- Regresión lineal con scikit-learn
- Modelos lineales con variables categóricas
- Variables categóricas en una regresión lineal
- Otra forma más simple de calcular las predicciones
- Enmascarado de variables categóricas redundantes