РАЗБИРАЕМЫЕ ТЕМЫ:
ИТ-ландшафт в области больших данных:
- Hadoop и MapReduce;
- Анатомия кластера;
- Место Spark в экосистеме;
- Процесс выполнения задания Spark по шагам;
- Типы развертывания Spark: локальное, автономное, Yarn, Mesos.
Ядро Spark:
- Восстанавливаемые распределенные наборы данных (Resilient Distributed Datasets, RDDs);
- Использование RDDs;
- Оболочка Spark;
- Создание и развертывание приложений Spark.
Дополнительные возможности в ядре Spark:
- Распределение и пересылка данных между узлами;
- Задачи, этапы, задания;
- Пользовательский интерфейс Spark;
- Кэширование RDD;
- Контрольные точки в RDD;
- Рассылка данных на узлы (broadcasting) и аккумуляторы.
Spark SQL:
- Форматы чтения и записи (Json, Parquet);
- Использование SQL для запросов данных в Spark;
- DataFrames API;
- DataSets API;
- Оптимизатор запросов Catalyst: что внутри?