- Курс
4-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.
Что такое Apache Spark и где это используется
Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.
Спарк состоит из следующих компонентов:
- Ядро (Core);
- SQL – инструмент для аналитической обработки данных с помощью SQL-запросов;
- Streaming – надстройка для обработки потоковых данных;
- MLlib – набор библиотек машинного обучения (Machine Learning);
- GraphX – модуль распределённой обработки графов.
Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.
Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, на базе системы управления кластером Mesos. Спарк поддерживает несколько популярных распределённых систем хранения данных: HDFS, OpenStack Swift, Cassandra, Amazon S3. Также Spark предоставляет API-интерфейсы для часто используемых в области Big Data языков программирования: Java, Scala, Python и R.
Кому нужны курсы по Apache Spark
Практический курс по Спарк рассчитан на разработчиков Big Data, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов по большим данным, которые хотят получить опыт настройки и использования компонентов Apache Spark: Spark Core, Spark SQL, Spark Streaming, Spark MLLib и Spark GraphX.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
- Начальный опыт программирования (Python/Java)
- Начальный опыт в экосистеме Hadoop
Успешно окончив курсы по Spark в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.