Introduzione
  • Cosa sono i Big Data ?
  • Domande Frequenti
  • I vantaggi dei Big Data
  • Le tecnologie per i Big Data: Spark
  • Le tecnologie per i Big Data: Hadoop MapReduce
  • Leggi questo prima di iniziare !
Installazione di Spark in locale con VirtualBox
  • Usare VirtualBox per Creare una Macchina Virtuale
  • Installare Ubuntu sulla Macchina Virtuale
  • Installare Pip e Jupyter Notebook
  • Installare Java e Scala
  • Installare Spark sulla Machina Virtuale
Installazione di Spark su AWS EC2
  • Creare una Macchina Virtuale con AWS EC2
  • Installare Spark sulla Machina Remota
  • Non dimenticare questo !
Creare un Cluster con AWS EMR
  • Creazione di un Cluster con AWS EMR (Elastic Map Reduce)
Utilizzare Spark con DataBricks
  • Utilizzare Spark con DataBricks
  • Importare i Notebook su DataBricks
Il Resilient Distributed Dataset (RDD)
  • Introduzione al RDD
  • Azioni del RDD
  • MapReduce sul RDD
  • Trasformazioni sul RDD
  • RDD con chiave e valore
(Laboratorio) Analisi di 22.5 Milioni di Recensioni su Amazon
  • Procuriamoci il Dataset
  • Contiamo il numero di valutazioni
  • Contiamo il numero di libri
  • Contiamo il numero di valutazioni per libro
  • Troviamo i 10 libri più valutati
  • Calcoliamo la valutazione media per ogni libro
  • Troviamo i 10 libri con la valutazione più alta
  • Troviamo i 10 recensori più critici
Il DataFrame
  • Introduzione al DataFrame
  • Creazione di un DataFrame
  • Modificare lo Schema di un DataFrame
  • Operare su Righe e Colonne
  • Filtri, Aggregazione e Ordinamento
  • Query SQL su un DataFrame
  • (Opzionale) Query SQL di Selezione
(Laboratorio) Analisi di 28 milioni di Recensioni di Film
  • Procuriamoci il Dataset MovieLens
  • Creiamo il DataFrame
  • Correggiamo lo Schema
  • Contiamo il numero di Recensioni Totali e la Media per Utente
  • Troviamo l'Utente che ha Scritto più Recensioni
  • Troviamo i 10 Film che hanno ricevuto più Recensioni
  • Troviamo i 10 Film con le Recensioni più Positive e più Negative
  • Troviamo le 10 Recensioni più Recenti
  • Troviamo i Film più Visti ogni Anno
  • Aggiungiamo Titolo e Genere alla lista dei Film più Visti
(Laboratorio) Time Series - Analisi delle Azioni di Apple
  • Procuriamoci il Valore Giornaliero delle Azioni di Apple dal 1980 a Oggi
  • Creiamo il DataFrame e Correggiamo lo Schema
  • Troviamo i Valori Massimi e Minimi
  • Troviamo i giorni in cui il Valore è stato inferiore ai 100 $
  • Troviamo il Valore Massimo per ogni Anno
  • Troviamo l'Anno con i Volumi Maggiori
  • Calcoliamo la Variazione delle Azioni dopo il rilascio dell'iPhone
Machine Learning con Spark MLlib
  • Cosa è il Machine Learning ?
  • I problemi del Machine Learning
  • La Regressione Lineare e Logistica
  • (Opzionale) L'algoritmo Gradient Descent
  • Introduzione a Spark MLlib
  • Altri modelli di Machine Learning
Kaggle e le sue API
  • Introduzione a Kaggle
  • Creazione di un Account
  • Utilizzare le API di Kaggle
  • Scaricare un Dataset con le API
  • Scaricare il Dataset di una Competizione con le API
Machine Learning Supervisionato - Regressione
  • Procuriamoci il Dataset
  • Vettorizzazione delle Features
  • Applichiamo la Normalizzazione
  • Creare un modello di Regressione Lineare
  • Valutazione del Modello
  • Metriche: Mean Squared Error
  • Metriche: Root Mean Squared Error e Mean Absolute Error
  • Metriche: R2 - Coefficiente di Determinazione
  • Eseguire Predizioni con il Modello
Machine Learning Supervisionato - Classificazione
  • Procuriamoci il Dataset di Tumori al Seno
  • Creiamo il DataFrame
  • Vettorizzazione delle Features
  • Applichiamo la Standardizzazione
  • Codifichiamo il Target
  • Creare un Modello di Regressione Logistica
  • Metriche: L'Accuracy
  • Metriche: Precision e Recall
  • Testiamo il modello sulle nuove Agobiopsie
(Laboratorio) Sentiment Analysis sulle Recensioni di Yelp
  • Introduzione alla Sentiment Analysis
  • Procuriamoci il Dataset