Introduzione
  • Introduzione al corso
  • Come affrontare e risolvere i problemi più comuni
  • Come ottenere il rimborso del corso in caso di problemi
  • CODICE
Introduzione ai Big Data con Hadoop
  • Introduzione ai Big Data
  • Le 3 V
  • Hadoop e il suo ecosistema
  • Fasi dell'analisi e relative tecnologie
  • MapReduce vs Spark
  • Hadoop vs Spark
Introduzione a Spark
  • Introduzione a Spark
  • La transizione da Spark 1.0 a 2.0
  • Approfondimento sugli RDD
  • Modalità di esecuzione di Spark
  • Il local mode in Python
  • L'utilizzo dei sistemi distribuiti
  • Utilizzare Spark con Databricks
Primi passi con pyspark
  • Strutture dati e astrazioni in Spark
  • Prime impostazioni dell'ambiente di lavoro
  • Funzioni di base e manipolazione dati sui DataFrame
  • Formati dati per il data mining
  • Importazione file in pyspark
  • Spark SQL
  • Data cleaning con pyspark
Database per i Big Data
  • I database SQL
  • I database NoSQL
  • Il linguaggio SQL in pyspark
Machine learning supervisionato con Python e Spark 2.0
  • Introduzione al machine learning
  • Trasformare i dati
  • Metodi supervisionati
  • Metodi di regressione
  • Regressione lineare
  • Esempi di regressione con pyspark
  • Regressione Logistica
  • Esempi di regressione logistica con pyspark
  • Decision Trees
  • Esempi di Decision Trees con pyspark
  • Metodi Ensemble
  • Esempi di metodi ensemble con pyspark
  • Support Vector Machines
  • Esempi di Support Vector Machines con pyspark
  • Probabilità e metodi bayesiani
  • Esempi di Naive Bayes con pyspark
Machine learning non supervisionato con pyspark
  • Metodi non supervisionati
  • Kmeans
  • Esempi di kmeans con pyspark
Sistemi di raccomandazione
  • Introduzione ai sistemi di raccomandazione
  • Tipologie di sistemi di raccomandazione
  • I filtri collaborativi
  • I sistemi content based
  • Le distanze nei sistemi di raccomandazione
  • Esempi di filtri collaborativi con pyspark
Frequent Pattern Mining
  • Regole di associazione
  • Esempi di regole di associazione con pyspark
Natural Language Processing
  • L'uso del machine learning nell'analisi dei testi
  • Natural Language Processing
  • Trattamento e pulizia dei dati
  • Vettorializzazione di un testo
  • Misurare la distanza tra due testi
  • TF-IDF
  • Tipi di strutture per l'analisi
  • Esempi di NLP con pyspark
Spark Streaming
  • Spark Streaming
  • Spark Streaming con pyspark
Conclusioni
  • Dataset per le esercitazioni con i Big Data
  • Conclusioni
Bonus Section
  • Bonus Lecture