Разработка приложений Apache Spark на языке Scala

Мастер-класс сайт события http://www.luxoft-training.ru/master-class/dragos/?utm_source=it-sobytie&utm_medium=sobytie&utm_campaign=course

Добавить в календарь:
Поделиться:

Мастер-класс посвящен возможностям крупномасштабной распределенной обработки больших данных с помощью Apache Spark.

 

 

На тренинге участники будут использовать язык Scala для разработки Spark-приложений и познакомятся с различными типами развертывания Spark и интерфейсами Spark API. Также будет рассмотрена основа основ Spark – восстанавливаемые распределенные наборы данных (RDDs), затем использование Spark SQL через DataFrame и DataSet API, а также способы настройки производительности Spark и внутренних компонентов Spark.

 

СПИКЕР:

Юлиан Драгос (Iulian Dragos) занимается языком Scala с 2004 года, в это же время он начал работать в исследовательской лаборатории Мартина Одерски (Martin Odersky) в Федеральной политехнической школе Лозанны. Им была написана серверная часть (backend) виртуальной машины Java и оптимизатор байткода, а также он работал над различными частями компилятора. Кроме того, Юлиан реализовал для Scala специализацию с помощью типов.

В 2010 году Юлиан получил степень PhD в Федеральной политехнической школе Лозанны. Работал в компании Typesafe с момента ее основания Мартином Одерски, создателем языка Scala, занимаясь созданием средств разработки (в частности, написал плагин Eclipse для Scala). Затем возглавил группу Spark в компании Lightbend (прежнее название – Typesafe) и внес значительный вклад в развитие этого проекта. Кроме того, он ведет учебные курсы и помогает клиентам в реализации Spark-проектов.

РАЗБИРАЕМЫЕ ТЕМЫ:

 

ИТ-ландшафт в области больших данных:

- Hadoop и MapReduce;
- Анатомия кластера;
- Место Spark в экосистеме;
- Процесс выполнения задания Spark по шагам;
- Типы развертывания Spark: локальное, автономное, Yarn, Mesos.

 

Ядро Spark:

- Восстанавливаемые распределенные наборы данных (Resilient Distributed Datasets, RDDs);
- Использование RDDs;

- Оболочка Spark;
- Создание и развертывание приложений Spark.

 

 

Дополнительные возможности в ядре Spark:

- Распределение и пересылка данных между узлами;
- Задачи, этапы, задания;
- Пользовательский интерфейс Spark;
- Кэширование RDD;
- Контрольные точки в RDD;
- Рассылка данных на узлы (broadcasting) и аккумуляторы.

 

Spark SQL:

- Форматы чтения и записи (Json, Parquet);
- Использование SQL для запросов данных в Spark;
- DataFrames API;
- DataSets API;
- Оптимизатор запросов Catalyst: что внутри?

Комментарии (0):

Оставлять комментарии могут только зарегистрированные пользователи

Для получения embed кода необходимо кликнуть правой
кнопкой мыши на видео и выбрать пункт меню
'Сгенерировать HTML код'

с 17 октября до 30 ноября- 22 000 руб.

с 30 ноября до 31 января - 24 000 руб.

с 31 января до 6 апреля - 26 000 руб.

Забыли пароль? Регистрация