Кирилл Васин: ML Pipeline: структуризация проектов по анализу данных
ML Pipeline: структуризация проектов по анализу данных
В XXI веке разработка ПО перестала полагаться на рок-звезд одиночек и стала развивать подходы для увеличения эффективности работы в команде. Сегодня хорошие софтверные проекты имеют ясную структуру, хранят большую часть кода в едином репозитории, придерживаются единых стандартов качества кода, работают внутри системы контроля версий, покрывают кодовую базу тестами. В общем, полагаются на обширную базу лучших практик, которые вырабатывались годами, и которые позволяют хорошим инженерам кооперироваться для создания хороших продуктов.
Было бы очень удобно перенять лучшие практики софтверной разработки для анализа данных. Для этого нужно найти такие инструменты и подходы, которые будут учитывать специфику ML-проектов: наличие большого объема данных, множества пайплайнов для генерации признаков и огромного количества моделей со множеством гиперпараметров.
Я расскажу вам, как облегчить взаимодействие между специалистами по анализу данных, ускорить и стандартизировать процесс проведения экспериментов и добиться воспроизводимости результатов этих экспериментов.
После доклада вы сможете:
Создать хорошо структурированный проект по анализу данных;
Контролировать качество кода внутри этого проекта;
Отслеживать результаты экспериментов, проведенных на разных машинах;
Автоматизировать подбор гиперпараметров;
Версионировать данные и пайплайны;
Надежно воспроизводить эксперименты.
Кирилл Васин
Санкт-Петербург, Россия
Data Scientist
SEMrush
Я закончил магистратуру ВШЭ по анализу данных в 2018 году. Полтора года работал на фрилансе Python-разработчиком и ML-специалистом. С 2019 года работаю датасайнтистом в компании SEMrush. Есть опыт преподавательской деятельности и публичных выступлений: полгода читал курсы по машинному обучению на курсах от Digital Banana; выступал с докладом на международной конференции “Big Data Days 2019”. Интересуюсь изучением темы воспроизводимости экспериментов в проектах по анализу данных. В свободное время люблю писать код для опенсорсных проектов.