PiterPy 2019 / Андрей Гаврилов: От Pandas к Spark. Адаптация моделей машинного обучения к работе в распределенно... / Санкт-Петербург, Россия / 1 ноября 2019

Андрей Гаврилов: От Pandas к Spark. Адаптация моделей машинного обучения к работе в распределенной среде.

Описание

От Pandas к Spark. Адаптация моделей машинного обучения к работе в распределенной среде. ​

В настоящее время в области работы с данными преобладают два направления: Data Science и Big Data, где первое по большей части посвящено анализу информации, содержащейся в данных, а второе - проблемам обработки больших объемов этих данных. Общая область применения решений делает закономерным рост объёма задач, находящихся на пересечении двух указанных направлений. Другими словами, всё чаще перед инженерами стоит задача операционализации ML моделей, что зачастую заключается в адаптации их к работе в распределённой среде.
В докладе представлены подходы к решению задачи замены реализаций алгоритмов машинного обучения на распределённые аналоги, в частности, модели для анализа семантики естественных языков Word2vec (Gensim) на аналог из библиотеки распределённого машинного обучения MLlib (PySpark). Проводится сравнительный анализ результатов процедуры сингулярного разложения для реализаций из PySpark MLlib и Scikit-learn (TruncatedSVD). Рассматриваются вопросы распределённого (в HDInsight cluster) обучения нейронных сетей, реализованных с использованием библиотеки Keras (TensorFlow).

 

Андрей Гаврилов​
Санкт-Петербург, Россия
Big Data Software Engineer
EPAM

Работаю в EPAM в области Big Data и Data Science. Изучал Data Science в Санкт-Петербургском политехническом университете в рамках направления “Прикладная математика”. Увлекаюсь разработкой игр на python и информационной безопасностью.

Расскажите друзьям
Добавьте в свой календарь
Организатор
Со-организатор
Wargaming - серебряный спонсор
DELL TECHNOLOGIES - серебряный спонсор
CINDICATOR - серебряный спонсор
Selectel - серебряный спонсор
EPAM - серебряный спонсор
Партнёры
TRAVEL-СПОНСОРЫ
Хештег события
#PiterPy
Событие в социальных сетях
Контакты организаторов
Irina Saribekova
+7 (921) 903-45-17
irina@it-events.com

Поздравляем!

Вы успешно подписались на нашу рассылку.