- Meetup
- Location
Приглашаем на очередную встречу PyData, посвящённую анализу больших данных с использованием языка Python.
В программе мероприятия — доклады и мастер-классы представителей компаний из разных сфер бизнеса. Они поделятся своим опытом и расскажут, как организовать полуавтоматическую разметку данных, наладить мониторинг и автоматическое тестирование моделей.
Участники мастер-классов познакомятся с библиотекой градиентного бустинга CatBoost и библиотекой RadIO, научатся извлекать информацию из текста с помощью Yargy-парсера, пользоваться системой ClickHouse и создавать ботов с помощью библиотеки DeepPavlov. Занятия рассчитаны на разные уровни подготовки, требования к участникам указаны в описании мастер-классов.
Мероприятие бесплатное, но необходимо зарегистрироваться. Количество мест ограничено. Для тех, кто не сможет попасть на встречу, мы будем вести трансляцию докладов.
Программа PyData Moscow
11:30 Регистрация
12:00 Мастер-классы
15:00 Перерыв
15:30 Процесс полуавтоматической разметки данных. Кирилл Данилюк,Яндекс. Такси
Разметка сложных данных — первое, с чем сталкиваются разработчики и дата-сайентисты, когда начинают решать с помощью нейросетей прикладные задачи компьютерного зрения — такие, как instance segmentation. Если в крупных компаниях проблема разметки решается наймом армии сотрудников, то для небольших проектов такой вариант оказывается слишком дорогим и долгим.
В докладе будет рассмотрен довольно простой процесс полуавтоматической разметки, который использовала команда RnD Lab в одном из своих проектов. Благодаря этому она значительно сэкономила время на разметку, добившись неплохого её качества и значительно автоматизировав всю работу.
16:00 Canary deployment, мониторинг и тестирование моделей силами одного специалиста. Александр Дмитриев, MyBook
В докладе я на примере рекомендательного сервиса покажу, как поднять инфраструктуру для приятной работы с моделями в продакшене. Больше никаких волнений перед выкаткой новой версии модели и просмотров Графаны за утренним кофе. Для этого не нужен DevOps, много времени и огромная команда.
16:30 Как мы строили автоматическую систему модерации объявлений ЦИАН. Алексей Бардышев, ЦИАН Групп
В докладе мы расскажем, как строили систему модерации объявлений ЦИАН. Осветим технологический стек, этапы проектирования системы и итоговый пайплайн работы, а также уделим немного времени способу разметки пограничных кейсов, в которых методы автоматизации не могут дать однозначного ответа.
17:00 Тема доклада уточняется
17:30 Тема доклада уточняется
Мастер-классы (Экстрополис)
12:00 ClickHouse: инструкция по применению. Мария Мансурова, Яндекс. Метрика
Участники мастер-класса познакомятся с аналитической СУБД ClickHouse и научатся применять её для анализа пользовательского поведения и маркетинговых воронок. Занятие может быть интересно всем — от начинающих аналитиков до опытных специалистов, желающих освоить ClickHouse.
Требования к участникам: базовые знания SQL (SELECT, GROUP BY) и Python.
Продолжительность занятия 1 час. Трансляции и записи не будет.
13:00 Решение задач классификации при помощи CatBoost. Никита Дмитриев, Яндекс
Градиентный бустинг — метод машинного обучения, появление которого привело к прорыву в решении многих задач, включая поиск в интернете, создание рекомендательных систем и прогнозирование погоды. На протяжении многих лет он остаётся основным методом работы с неоднородными признаками, зашумлёнными данными и сложными зависимостями.
CatBoost — это библиотека градиентного бустинга с открытым исходным кодом. Она превосходит по качеству аналоги и имеет дополнительные преимущества. CatBoost поддерживает работу с категориальными признаками (например, жанрами музыки, ID устройства, URL и т. д.) без предобработки данных. У него очень хорошие дефолтные параметры, поэтому их не нужно настраивать для получения качественных моделей. А GPU-реализация CatBoost — самая быстрая среди общедоступных реализаций градиентного бустинга.
С возможностями библиотеки мы будем знакомиться на примере решения задачи классификации. Вместе мы пройдём все этапы построения модели прогнозирования и рассмотрим следующие темы:
- Выбор подходящих функций потерь и метрик для оптимизации.
- Обучение модели.
- Визуализация процесса обучения и кросс-валидации.
- Работа со встроенным детектором переобучения.
- Выбор оптимального порога принятия решения.
- Важность признаков и интерпретация прогнозов модели.
- Применение обученной модели к тестовым данным.
После теоретической части вам будет предложено небольшое задание.
Требования к участникам: для участия в мастер-классе вам понадобится настроенный Jupyter Notebook с установленными библиотеками: catboost, ipywidgets, sklearn, matplotlib, shap. Также нужно заранее зарегистрироваться на kaggle.com.
Продолжительность занятия 2 часа. Будет запись.
Мастер-классы (Синий Кит)
12:00 Yargy-парсер. Извлечение структурированной информации из текстов на русском языке. Александр Кукушкин, Лаборатория анализа данных Кукушкина Александра
На примере конкретной задачи будет показано, как пользоваться Yargy-парсером для извлечения структурированной информации из русскоязычных текстов. Мы возьмём в интернете сырые тексты, сделаем предобработку, составим и отладим словари и грамматики для Yargy-парсера.
Мастер-класс рассчитан на тех, кто уже немного разбирается в вопросе.
Требования к участникам: умение программировать на Python; желателен опыт использования Jupyter Notebook и библиотек для обработки русскоязычных текстов (pymorphy2, Томита-парсер).
Перед мастер-классом будет полезно ознакомиться с материалами по Yargy-парсеру: материал на Хабре о проекте «Наташа», в котором используется Yargy; репозиторий с примерами.
Продолжительность занятия 2 часа. Будет запись.
14:00 DeepPavlov: библиотека для создания диалоговых систем и её применение. Диляра Баймурзина, iPavlov, МФТИ. Мария Вихрева, iPavlov, МФТИ.
Мастер-класс будет состоять из двух частей. Первая — это вводная лекция о библиотеке и целях её создания. Вторая часть отводится под практическую работу. Вы научитесь создавать своих чат-ботов — например, для Телеграма или другого IM-сервиса. Также мы расскажем про доступные в библиотеке модели и интерфейс для работы с ними.
Мастер-класс рассчитан на тех, кто уже немного разбирается в вопросе.
Требования к участникам: начальные навыки работы с Python и Jupyter Notebook, знание базовых понятий, связанных с нейросетевыми моделями и Natural Language Processing (NLP). Перед воркшопом рекомендуем установить DeepPavlov (доступен в pip). Работать с библиотекой можно будет как на локальной машине, так и в облаке Google Collab.
Продолжительность занятия 1,5 часа, трансляции и записи не будет.
15:30 Библиотека RadIO, или Как научиться детектировать рак лёгких за два часа. Александр Корягин, Газпром нефть. Дарима Мылзенова, Газпром нефть
Мы пройдём все этапы построения системы детекции рака лёгких: препроцессинг и аугментация данных, обучение модели. В частности, ответим на следующие вопросы:
- Как удобно и быстро обработать сотни гигабайтов КТ-снимков?
- Как научить сетку распознавать рак, когда мнения врачей о его расположении расходятся?
- Как научить сетку искать трёхмерный рак на двумерных срезах?
Мастер-класс рассчитан на тех, кто уже немного разбирается в вопросе.
Требования к участникам: минимальное знание Python. Вам понадобятся библиотеки radio и dataset (установить можно здесь), TensorFlow и другие библиотеки, указанные в requirements radio. Мы будем запускать эксперименты на небольшом датасете. Скачать образец данных и предобученную модель можно по ссылке.
Продолжительность занятия 2 часа. Трансляции и записи не будет.