- Курс
- Место
3х дневный интенсивный практический тренинг по знакомству с платформой для распределенной обработки больших данных Apache Spark. В ходе лекций и лабораторных работы вы научитесь настраивать кластер Apache Spark для запуска задач на Scala и R при обработке больших массивов неструктурированных данных, поймете разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets; настраивать и анализировать данные в потоке Spark Streaming; интегрировать компоненты Apache Spark с другими компонентами экосистем Hadoop.
Соотношение теории к практике 40/60
Программа курса
- Введение в Apache Spark
- Сравнение Hadoop и Spark
- Сравнение Batch, Real-Time и in-Memory процессинг
- Особенности Apache Spark
- Компоненты Apache Spark экосистемы
- Введение в RDD — Resilient Distributed Dataset
- Что такое RDD
- Особенности использования RDD, RDD lineage
- Трансформация в Spark RDD
- Lazy evaluation и отказоустойчивость в Spark
- Использование Persistence RDD в памяти и на диске
- Использование key-value пар (ReduceByKey,CountByKey,SortByKey,AggregateByKey)
- Интеграция Hadoop с Spark
- Выполнение базовых операций с Cloudera Manager.
- Запуск задач в Apache Spark
- Знакомство с Spark-shell
- Выполнение задач в Apache Spark
- Написание программ в Apache Spark
- Чтение данных с локальной файловой системы и HDFS
- Зависимости(Dependencies)
- Кэширование данных в Apache Spark
- Отказоустойчивость (Fault Tolerance)Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, RCfile, ORC, Parquet.
- Управление ресурсами в кластере Apache Spark
- Архитектура Apache Spark
- Особенности управления ресурсами в автономном режиме кластера (Standalone)
- Особенности управления ресурсами в режиме Hadoop кластера с YARN
- Динамическое распределение ресурсов Dynamic Resource Allocation
- Оптимизация Apache Spark: использование разделов (partition hash,range,map, static), управление расписанием (dynamic, fair scheduler), использование переменных (shared, broadcast) и аккумуляторов (accumulators)
- Использование Catalyst Optimizer для оптимизации исполнения запросов
- Project Tungsten — Оптимизация управления памятью и кэшом CPU
- Импорт и обработка данных в кластере Hadoop
- Потоковая обработка (Streaming) в Apache Spark
- Потоковая обработка данных для аналитики больших данных
- Особенности реализации потоковой обработки данных в Apache Spark
- Основные концепции потоковой обработки
- Аггрегированные и не аггрегированные запросы
- Обработка событий Event Time, Window и Late Events (скользящее окно событий)
- Поддержка последних событий (Late Events) в потоковой обработке данных в Apache Spark
- Режимы работы Apache Spark с потоковыми данными
Официальный сайт события
https://www.bigdataschool.ru/bigdata/apache-spark-sql.html
Контакты организаторов