- Хакатон
SENSE Group проведет онлайн-хакатон DATA HACK с 24 по 26 июня! А ГК "Иннотех" выступит партнером в битве IT-умов.
Успей зарегистрироваться до 22 июня: https://hcklink.ru/8601
Призовой фонд: 300 000 рублей (по 100 000 рублей в каждом кейсе)
Кейсы
- Статический анализатор SparkSQL с возможностью добавления пользовательских правил
Описание: необходимо разработать статический анализатор SparkSQL кода. Грамматика должна расширяться через отдельный BNF файл (https://en.wikipedia.org/wiki/Backus–Naur_form). Есть возможность добавлять пользовательские проверки в коде. Есть ООП интерфейс для использования из кода. Инструмент должен быть быстрым и изолированным. Не использовать Spark сессию. Укладываться в SLA до 5 секунд на 10 запросов.
Стек решений: #Python 3.7+, #Библиотека Lark, #Любые необходимые библиотеки, которые не требуют интеграции с внешними системами и БД.
- Генератор фейковый данных для сложных запросов
Описание: есть набор dataclasses, описывающий имена таблиц, их столбцы и типы. Требуется генератор фейковых данных при заданном описании таблиц. Большое (100к+ строк на таблицу) количество данных может быть сгенерировано в разумные сроки (до 30 минут на 5 таблиц). Нужен ООП инструментарий, который может обернуть эти классы и настроить некоторые столбцы так, что таблицы будут джоиниться между собой. В определенных столбцах данные нужно генерить по маске (для прохождения where, и т. п.). Будет возможность использовать техники тест дизайна (частотное распределение, граничные значения, эквивалентное разбиение)
Стек решений: #Python 3.7+, #Библиотека Faker или любые другие необходимые библиотеки, не требующие интеграции с внешними системами и БД.
- Создание прототипа ETL Движка из Postgres, Oracle, ClickHouse в HDFS на Spark
Описание: движок должен быть шаблонизирован через конфигурацию. Простой snapshot с возможностью обогатить техническими столбцами (load_ts, source_name). Инкрементная загрузка с использованием HWM (High WaterMark) или другим методом.
Стек решений: #Python 3.7+, #PySpark 2+, #Hadoop 2+, #Postgres, #Oracle, #ClickHouse (см Spark JDBC).
Успей зарегистрироваться до 22 июня: https://hcklink.ru/8601