Hier starten
  • Einleitung
  • Download der Kursmaterialien
  • Welche Installation?
  • [Windows]: Installation (mit Docker)
  • [Mac, Linux, ggf. Windows]: Direkte Installation: Spark installieren
Grundlagen
  • Einführung: Wie funktioniert Spark?
  • Einführung: Jupyter Notebook
  • Refresher: Python
  • Grafiken zeichnen mit Matplotlib (+ Aufgabe)
  • Grafiken zeichnen mit Matplotlib (Lösung)
Spark & RDD (Teil 1)
  • Du bekommst einen Fehler beim Erstellen vom SparkContext()?
  • Einführung: Resilient Distributed Dataset
  • Exkurs: Python und Lambda - Funktionen
  • Map, Union und .collect()
  • Daten filtern, Daten zählen
  • CSV - Datei einlesen und verarbeiten
  • Aufgabe: Auswerten von Flughafen - Daten
  • Auswerten von Flughafendaten
  • Bonus: Airport - Daten als Diagramm visualisieren
  • Aufgabe: Auswerten von Flughafendaten (Lösung)
  • Daten weiterverarbeiten (map, sum)
  • Berechnungen beschleunigen: Caching verwenden
Spark & RDD (Teil 2)
  • Refresher: Tupel in Python
  • Daten aggregieren (reduceByKey)
  • Beispiel: Daten aggregieren (+ Aufgabe)
  • Beispiel: Daten aggregieren (Lösung)
  • Daten sortieren (sortByKey)
  • Airport: Aufgabe
  • Airport: Aufgabe
  • Airport: Aufgabe (Musterlösung)
  • flatMap() vs. map()
  • Aufgabe: Goethe Faust
  • Aufgabe: Goethe Faust
  • Aufgabe: Goethe Faust (Lösung)
Spark SQL
  • Einführung: Spark SQL
  • Exkurs: Operatoren überladen + Spark
  • DataFrames typisieren und Summe berechnen
  • Aufgabe: Wie viele Babys mit dem Vornamen "Lucia" gibt es?
  • Aufgabe: Wie viele Babys mit dem Vornamen "Lucia" gibt es?
  • Lösung: Wie viele Babys mit dem Vornamen "Lucia" gibt es?
  • Spalten auswählen und umbenennen
  • Daten gruppieren
  • Projekt: Gletscher Daten einlesen
  • Projekt: Gletscher Daten aggregieren
  • Gletscher Daten visualisieren (+Aufgabe)
  • Gletscher Daten visualisieren (Aufgabe)
  • Gletscher Daten visualisieren (Lösung)
  • DataFrames & RDD
  • Spark SQL per SQL ansteuern
Projekt Spark SQL: Taxi - Daten aus New York
  • Projekt: Einführung
  • Einlesen der Daten
  • Frage: Zu welcher Uhrzeit werden am meisten Taxis benötigt?
  • Aufgabe: An welchem Wochentag werden am meisten Taxis benötigt?
  • Aufgabe: An welchem Wochentag werden am meisten Taxis benötigt?
  • Lösung: An welchem Wochentag werden am meisten Taxis benötigt?
  • Daten auf Karte visualisieren: Einlesen und filtern
  • Daten auf Karte visualisieren: Pixel generieren
  • Daten auf Karte visualisieren: Karte zeichen
  • Daten visualisieren
  • Lösung: Was ist das auf der Karte?
Spark in der Cloud
  • Einführung
  • Script vorbereiten
  • Registrierung & erste Schritte
  • Spark auf AWS ausführen
  • Spark auf AWS ausführen
  • Performance im Cluster
  • Schlussworte: Cloud
Bonus: Wie kannst du an unbekannte Daten rangehen?
  • Wie gehst du an unbekannte Daten ran?
  • Konzept: Standardabweichung
  • Lösung: Übung Standardabweichung berechnen
  • Gletscher Daten auswerten
  • Gletscher Daten visualisieren (Histogramm)
Schlussworte
  • Wie geht es jetzt weiter?