1. Введение в DS. Терминология. Настройка окружения
- История развития Data Science
- DS | ML | AI, различие понятий, что куда входит, как пересекается
- Карта навыков и компетенций Дата-сайнтиста
- Примеры применения Data Science в современном мире
- Задачи в различных сферах для DS. Цикл модели. Роли в команде
- Домашнее задание: Настройка окружения (Python + Jupyter)
- Дополнительные ссылки + лит-ра
2. Python + Jupyter + Git
- Проверяем настройку окружения
- Основы Python
- Основные библиотеки для дата саинтиста
- Закрепляем
- Решаем задачки
- Знакомство с GitHub
- Домашнее задание
3. Математика для DS
- Математический анализ (derivatives, integrals)
- Линейная алгебра (matrix vector operations, eigenvalues, eigenvectors, and combinatorics).
- Теория вероятностей (distributions, conditional probabilities, independence, Bayes theorem, correlation, covariation).
- Статистика (hypothesis testing, bias/variance tradeoffs, mean, variance, and mode, p-value, confidence interval).
- Обработка данных для аналитика
- Сводные таблицы группировка
- Математические функции (min/max/argmin/argmax...).
- Математика для анализа данных (preprocessing, visualization,EDA).
- Проведения предобработки данных на примере реальной задачи
- Домашнее задание
4. Data Engineering и БД
- Подготовка данных для обучения (feature engineering).
- Способы сбора/поиска данных для обучения.
- Анализ данных (в том числе визуализация).
- matplotlib
- seaborn
- Анализ того, что получилось на графиках (среднее медиана)
- Базы данных
- SQL (на примере MySQL)
- NoSQL (на примере MongoDB)
- Ознакомительно: Hadoop | Apache Spark | Apache Hive
- Домашнее задание
5. Modeling
- Метод максимального правдоподобия
- Классическая задача регрессии
- Linear Regression
- Переобучение и недообучение. Методы борьбы с ними
- Lasso/Ridge regression
- Классическая задача классификации
- Logistic Regression
- Основные виды моделей (бустинг бэггинг)
- Методы Баггинга
- Decision Trees
- Random Forest
- Методы бустинга и популярные библиотеки
- XGBoost
- LightGBM
- Методы Баггинга
- Остальные популярные методы
- Support Vector Machines (SVM)
- Методы беггинга
- Naive Bayes Classifier
- Задача кластеризации
- K-means
- Иерархическая кластеризация
- EM-Алгоритм
- DBSCAN
- Задача снижения размерности
- Principal Component Analysis (PCA)
- t-SNE
- Домашнее задание
6. Deep Learning
-
- Структура и принцип работы полносвязных нейронных сетей
- Персептрон
- Функции активации, критерии качества работы НС
- Популярные библиотеки для нейронных сетей
- Типы:
- Deep Neural Networks (DNNs) | Feed Forward Networks (FFNNs)
- Исследование полезных подходов в нейронных сетях
- Back propagation( метод обратного распространения ошибки)
- Dropout
- Batch Normalization
- Recurrent Neural Network (RNN)
- Long Short Term Memory (LSTM)
- Convolutional Neural Network (CNN)
- Пакеты/Фреймворки для работы
- Methods to train (initialization, regularization, optimization, and transfer learning).
- Анализ результатов моделей, рекомендации.
- Домашнее задание
7. Infrastructure & Deployment
- Что такое рефакторинг. Основные подходы.
- Unit & Functional tests
- Обзор AWS, Azure и аналогов.
- CI / CD
- Docker
- Подготовка к деплойменту
- Домашнее задание
8. Разбор классических вопросов на собеседовании
Official web-site
https://levelp.ru/courses/data-science/data-scientist/
Contacts