PiterPy 2019 / Кирилл Васин: ML Pipeline: структуризация проектов по анализу данных / Санкт-Петербург, Россия / 1 ноября 2019

Кирилл Васин: ML Pipeline: структуризация проектов по анализу данных

Описание

ML Pipeline: структуризация проектов по анализу данных

В XXI веке разработка ПО перестала полагаться на рок-звезд одиночек и стала развивать подходы для увеличения эффективности работы в команде. Сегодня хорошие софтверные проекты имеют ясную структуру, хранят большую часть кода в едином репозитории, придерживаются единых стандартов качества кода, работают внутри системы контроля версий, покрывают кодовую базу тестами. В общем, полагаются на обширную базу лучших практик, которые вырабатывались годами, и которые позволяют хорошим инженерам кооперироваться для создания хороших продуктов.

Было бы очень удобно перенять лучшие практики софтверной разработки для анализа данных. Для этого нужно найти такие инструменты и подходы, которые будут учитывать специфику ML-проектов: наличие большого объема данных, множества пайплайнов для генерации признаков и огромного количества моделей со множеством гиперпараметров.

Я расскажу вам, как облегчить взаимодействие между специалистами по анализу данных, ускорить и стандартизировать процесс проведения экспериментов и добиться воспроизводимости результатов этих экспериментов.

После доклада вы сможете:
Создать хорошо структурированный проект по анализу данных;
Контролировать качество кода внутри этого проекта;
Отслеживать результаты экспериментов, проведенных на разных машинах;
Автоматизировать подбор гиперпараметров;
Версионировать данные и пайплайны;
Надежно воспроизводить эксперименты.

 

Кирилл Васин
Санкт-Петербург, Россия
Data Scientist
SEMrush

Я закончил магистратуру ВШЭ по анализу данных в 2018 году. Полтора года работал на фрилансе Python-разработчиком и ML-специалистом. С 2019 года работаю датасайнтистом в компании SEMrush. Есть опыт преподавательской деятельности и публичных выступлений: полгода читал курсы по машинному обучению на курсах от Digital Banana; выступал с докладом на международной конференции “Big Data Days 2019”. Интересуюсь изучением темы воспроизводимости экспериментов в проектах по анализу данных. В свободное время люблю писать код для опенсорсных проектов.

Расскажите друзьям
Добавьте в свой календарь
Организатор
Со-организатор
Wargaming - серебряный спонсор
DELL TECHNOLOGIES - серебряный спонсор
CINDICATOR - серебряный спонсор
Selectel - серебряный спонсор
EPAM - серебряный спонсор
Партнёры
TRAVEL-СПОНСОРЫ
Хештег события
#PiterPy
Событие в социальных сетях
Контакты организаторов
Irina Saribekova
+7 (921) 903-45-17
irina@it-events.com

Поздравляем!

Вы успешно подписались на нашу рассылку.