Questo corso sul Data Science con R nasce per essere un percorso completo su come si è evoluta l'analisi dati negli ultimi anni a partire dall'algebra e dalla statistica classiche. L'obiettivo è accompagnare uno studente che ha qualche base di R in un percorso attraverso le varie anime del Data Science.
Cominceremo con un ripasso delle basi di R, a partire dallo scaricamento e installazione, all'impostazione dell'ambiente di lavoro, passando per le strutture, la creazione di funzioni, l'uso degli operatori e di alcune funzioni importanti.
Passeremo poi a vedere come manipolare e gestire un dataset, estrarne dei casi oppure delle variabili, generare dei dataset casuali, calcolare delle misure statistiche di base, creare grafici con i pacchetti Matplotlib e Seaborn.
Nelle sezioni successive cominciamo a entrare nel cuore del Data Science con R, a cominciare dal preprocessing: vediamo infatti come ripulire e normalizzare un dataset, e come gestire i dati mancanti.
La sezione successiva ci permette di cominciare a impostare dei modelli di machine learning con Python: vedremo tutti gli algoritmi più comuni, sia supervisionati che non supervisionati, come la regressione, semplice, multipla e logistica, il k-nearest neighbors, il Support Vector Machines, il Naive Bayes, gli alberi di decisione e il clustering.
Passeremo poi ai più comuni metodi ensemble, come il Random Forest, il Bagging e il Boosting, e all'analisi del linguaggio naturale e al suo utilizzo nel machine learning per la catalogazione dei testi.
Nelle ultime sezioni vedremo alcuni rudimenti di analisi temporale, sistemi di raccomandazione e social media mining.