Introduction et mise en place du cours
  • Installation de R et RStudio (Windows/Mac/Linux)
  • Découverte de l'interface RStudio
  • Création d'un projet sous Rstudio
  • Installation des packages R essentiels pour la data science
Débuter avec R
  • Les types de données (character, int, double, booléens, données manquantes)
  • Les variables
  • Les opérateurs arithmétiques
  • Les vecteurs
  • Opérations sur les vecteurs
  • Manipuler les vecteurs grâce aux indexs
  • Qu'est-ce qu'une fonction en R ?
  • Utiliser les fonctions fournis par R
  • Qu'est-ce qu'un package R ?
  • Savoir utiliser l'aide de R
  • Exercice : manipuler un vecteur contenant les moyennes d'une classe de 20 élèves
Les matrices en R
  • Qu'est ce qu'une matrice en R ?
  • colnames() et rownames()
  • Accéder aux éléments d'une matrice
  • Modifier une matrice
  • Opérations sur les matrices
  • Exercice : manipuler une matrice
Les dataframes en R
  • Qu'est ce qu'un dataframe en R ?
  • colnames() et rownames()
  • Importation de données
  • Exportation de données
  • Accéder aux éléments d'un dataframe
  • Créer un sous-ensemble à partir d'un dataframe
  • Exercice : manipuler les dataframes
Les bases de la programmation en R
  • Les opérateurs logiques
  • Les instructions de condition (if ... else)
  • Les instructions de boucles (for)
  • Les instructions de boucles (while)
  • Exercice sur les instructions de condition et les boucles en R
  • Comment créer sa propre fonction en R
Manipulation avancée des données
  • apply()
  • aggregate() et by()
  • Dplyr : les tibbles
  • Dplyr : select()
  • Dplyr : filter()
  • Dplyr : l'opérateur pipe (%>%)
  • Dplyr : arrange()
  • Dplyr : summarise()
  • Dplyr : group_by()
  • Dplyr : mutate()
  • Exercice : explorer les données de l'ensemble des fast-foods aux USA
Visualisation avancée des données
  • Créer son premier graphique avec la fonction plot()
  • Créer des graphiques plus élaborés avec ggplot2
  • ggplot2 : Les couleurs, les formes et les tailles
  • ggplot2 : La légende (introduction des thèmes)
  • ggplot2 : Axes et titres
  • ggplot2 : Combiner plusieurs graphes (facet)
  • ggplot2 : Ajouter des annotations au graphique
  • ggplot2 : Les différents types de graphes (geoms)
  • Exercice : visualisation des données de l'ensemble des fast-foods aux USA
  • BONUS : rendre votre graphique interactif avec Plotly
Cas pratique de Data Science : appliquer des algorithmes de Machine Learning
  • Qu'est ce que l'apprentissage automatique (machine learning) ?
  • Données : prédire la souscription d'un client à un produit bancaire
  • Visualisation des données avec ggplot2
  • Création d'un jeu de données d'entrainement et de test
  • Traitement des classes déséquilibrées et normalisation
  • Entrainer un modèle avec Caret : méthode Naive Bayes
  • Entraîner un modèle avec Caret : méthode SVM (Support Vector Machine)
  • Trouver les variables prédictives les plus importantes
BONUS
  • Coupon : Programmer en Python pour la Data Science de A à Z - Lien direct
  • Coupon : Programmer en Python pour la Data Science de A à Z
  • L'ensemble du code R utilisé durant le cours
  • Aide-mémoire ggplot2
  • Aide-mémoire dplyr
  • Mon livre aux éditions ENI : Python pour la Data Science