- Тренинг
- Место
ДЛЯ КОГО ЭТОТ ТРЕНИНГ
Java и Scala - разработчики, которые начинают работу на BigData - проектах или планируют начать работать в ближайшем будущем, в запасе у которых несколько добротно написанных бэкендов.
Также тренинг может быть полезен для Python / R - разработчиков, которые планируют работать в тесной связке с Big Data - командами в качестве Data Scientist.
Даже если вы C#/C++ разработчик - приходите, все скелеты проектов будут выданы, проблем со сборкой не будет, а дальше будем работать с API фреймворков.
Необходимые знания:
- базовые знания Linux,
- знания Java и SQL,
- плюсом будет опыт работы с Hadoop/Spark/Kafka
УСЛОВИЯ УЧАСТИЯ
Стоимость 8000 руб.
Способ оплаты: по банковской карте онлайн или наличными на месте.
Продолжительность тренинга 8 часов (4 часа лекций + 4 часа практики).
Для регистрации используйте форму ниже. Регистрация обязательна.
О ЧЕМ ТРЕНИНГ?
Решение задач при помощи алгоритмов машинного обучения (machine learning) или глубокого обучения (deep learning) перестает быть занятием для PhD в Computer Science и становится типичным базовым требованием в вакансии Data Engineer.
Проверьте количество вакансий на hh, если вам интересна востребованность
https://hh.ru/search/vacancy?text=deep+learning
https://hh.ru/search/vacancy?text=machine+learning
Обычно на таком проекте имеется бэкенд написанный на Java или Scala при помощи таких фреймворков, как
- Spark
- Kafka
- Hadoop
- Ignite
- Flink
Многие из этих фреймворков имеют встроенные ML/DL решения разного качества и удобства использования, и многие команды мечутся между использованием Python-библиотек и их интеграцией с остальной экосистемой и тотальным использование Spark MLlib для решения всех задач.
Я на протяжении нескольких последних лет, создаю цепочки машинного обучения (ML Pipelines) полного цикла от потребления данных до дообучения моделей на порциях новых данных, а также являюсь активным контрибутором ML фреймворков в вышеперечисленных инструментах.
Данный тренинг подготовлен на основе моего опыта и типичных граблей, по которым раз за разом ходят Java-разработчики, далекие от мира машинного обучения и ежедневной работы с математической статистикой.
В ходе тренинга будет много взаимодействия с участниками, live coding-а, мы решим несколько практических задач трансформации и анализа данных, поработаем с самой свежей версией Spark/Ignite/Flink, обсудим вопросы повышения производительности полученных решений.
АВТОР ТРЕНИНГА
Алексей Зиновьев — автор тренингов и докладов по Apache Spark и Apache Ignite.
Contributor, создатель доброй трети Apache Ignite ML (SVM, KNN, ANN, Logistic Regression, Prerpocessing and etc.)
Особенно любит текстовые данные и большие графы. Несет бигдату в массы в группе big_data_russia
Работает на проектах с Hadoop/Spark с 2012 года.
Видео доступны на странице лекториума.
ПОДРОБНОЕ ОПИСАНИЕ ТЕМ
Практическое задание 1. Работа с Weka
Практическое задание 2. Кластеризация с Apache Commons
Практическое задание 3. Решающие деревья со Spark ML
Практическое задание 4. Создание пайплайна для задачи-сюрприза
Практическое задание 5. Решаем задачу распознавания с DL4j
- Машинное обучение для джавистов
- Типичные задачи машобуча
- Обучение с учителем и без
- Задача кластеризации объектов
- Задача классификации объектов
- Этапы работы с данными
- Этапы работы с моделью
- Что такое бустинг?
- Насколько “глубоко” глубокое обучение?
- Обучение в режиме реального времени
- В какие задачи лучше не пихать машинное обучение
- Локальное машинное обучение на Java
- Метод ближайших соседей
- Популярные библиотеки машинного обучения на Java
- Возможна ли интеграция с Python - экосистемой?
- Как хранить данные для обучения?
- Основы машинного обучения в кластере Spark
- Краткое введение в Spark
- Основные инструменты разработки
- DataFrame API
- Основные типы данных: Vector, Labeled Point & Rating
- Распределенные матрицы
- Классификация и кластеризация со Spark ML
- Возможности Spark ML
- Немощь и недостатки Spark ML
- Пайплайн машинного обучения со Spark ML
- Загрузка данных
- Очистка данных
- Подготовка фич
- Выбор фич
- Тренировка машинного обучения
- Оценка модели
- Выбор наилучшей модели в ходе кросс-валидации
- Экспорт модели
- Ансамбль моделей
- Слияние моделей
- Пайплайн машинного обучения с Ignite ML
- Как тренироваться, если данные лежат в Ignite - кэше
- Особенности “ленивой” тренировки
- Partitioned Datasets в Ignite ML
- Паритет по алгоритмам со Spark в релизе 2.7
- Ансамбли моделей
- Бустинг
- Онлайн обучение
- Возможности Spark ML
- Грабим данные из Kafka
- Интеграция с Flink и Storm
- Flink ML и его возможности
- Дообучение моделей в Apache Ignite
- Глубокое обучение
- Перцептрон и нейросети
- Автокодировщики
- RNN, CNN, LSTM
- DL4J: библиотека с нейросетями
- Что такое TensorFlow и как это готовить?
- Интеграция Spark c TensorFlow
- Интеграция Ignite c TensorFlow