- Webinar
Для частого запуска приложений на Spark, особенно в промышленной эксплуатации, необходимо максимально упростить сам процесс регулярного запуска Spark-задач, а также уметь гибко настраивать их конфигурации. В этом поможет современный DevOps-подход к работе со Spark, связанный с использованием Kubernetes. Spark на Kubernetes позволяет решать задачи изоляции рабочих сред, гибкого управления ресурсами и масштабирования.
Популярные материалы останавливаются на запуске тестового приложения в K8s, которое считает число пи. В своем вебинаре мы идем дальше: даже начинающие научатся обрабатывать данные с помощью Spark в облаке. Мы соберем свой образ со своим кодом, добавим необходимые библиотеки, креды для доступа к S3-хранилищу, научимся читать из S3 и записывать в него.
Все это возможно с помощью Kubernetes как сервис, который максимально упрощает базовую работу с технологией Kubernetes, порог входа в которую для Data Scientists все еще очень высокий.
На вебинаре мы вместе:
— Развернем Kubernetes-кластер в облаке Mail.ru Cloud Solutions;
— Установим Kubernetes Operator for Apache Spark (Spark Operator);
— Запустим тестовый пример Spark-задачи/приложения;
— Соберем свой Docker-образ со Spark и кастомным приложением;
— Протестируем Docker-образ в работе, получим доступ из Spark к сервисам облака (S3-хранилищу);
— В процессе познакомимся с дебагом Spark в Kubernetes ;)
По итогам вебинара вы получите готовый репозиторий в Github с инструкцией, всеми командами, примерами кода, готовыми приложения — и сможете самостоятельно повторить все действия, которые будут продемонстрированы спикером в рамках вебинара.
В конце на все ваши вопросы ответит архитектор PaaS-продуктов Mail.ru Cloud Solutions Александр Волынский.