Presentación del curso
  • Presentación
  • Preparación del entorno en Microsoft Windows
  • Preparación del entorno en GNU/Linux
Introducción a Spark y a los RDDs
  • Introducción a Apache Spark
  • Introducción a los RDDs
  • Introducción a las transformaciones y acciones
Operaciones sobre RDDs simples
  • Transformaciones sobre un RDDs simple
  • Transformaciones sobre dos RDDs simples
  • Acciones de agregación sobre RDDs simples
  • Otras acciones sobre RDDs simples
  • Programa WordCount
Otros tipos de RDDs
  • RDDs con pares clave-valor
  • Transformaciones sobre un RDD clave/valor
  • Transformaciones sobre dos RDDs clave/valor
  • Principales acciones sobre RDDs clave/valor
  • Número de citas de patentes
  • Número medio de reivindicaciones por país
  • RDDs numéricos
  • Número de patentes por país y año
Aspectos avanzados de Apache Spark
  • Persistencia y particionado
  • Lectura y escritura de ficheros
  • Crear ficheros secuencia
  • País, año y número de citas de cada patente
  • Ejecución de scripts desde línea de comandos
  • Aspectos avanzados: interfaz Web
  • Otros aspectos avanzados de Apache Spark
  • Número de patentes por año de un país
Otros componentes de Apache Spark
  • Spark SQL (I): creación de DataFrames
  • Spark SQL (II): operaciones con DataFrames
  • Número de citas de patentes usando DataFrames
  • Spark Streaming
  • Spark MLlib
  • Spark GraphX