- Hackathon
Несмотря на все проблемы открытых данных в Украине есть одна, которую общими усилиями можно решить уже сейчас.
Дело в том, что в открытом доступе уже существует достаточно много данных, но они скрыты в недрах множества ресурсов и в разнообразных форматах, что сильно затрудняет их использование.
Так, например, данные могут быть в виде HTML-страниц, doc, excel, pdf-файлов или в виде изображений(сканов).
Поэтому, чтобы объединить силы для решения проблемы, мы организовываем онлайн-хакатон «Шахта Открытых Данных» — отличный способ с пользой прокачать свои способности в data mining’е.
Правила
Участие:
- индивидуально;
- и командой до 5 чел:
- участники должны зарегистрироваться до отправки первых результатов;
- для регистрации нужно отправить email с темой «Регистрация команды», названием команды и со списком имен(ников, ссылка на профиль в GitHub) участников команды;
- но в любом случае ведется и индивидуальный и командный зачет.
Источники данных:
- официальные первоисточники, без коммерческих прав;
- наши ресурсы открытых данных;
- (!) перед началом посмотрите в списке данных в работе, что еще никто не занимается обработкой желаемых данных. И если их там нет — внести или отправьте письмо с темой «Начало работы», с ником и ссылкой на данные в тексте.
Оформление результатов:
- в виде csv или Excel;
- должны содержать ссылку на источник(документ) в последней колонке. Если данные были получены через запрос, то нужно указать организацию, куда подавался запрос, соответствующий контакт и исходные данные (ответ).
- Результаты принимаются:
- в репозиторий мероприятия на GitHub;
- на почту opendatamine@cityscale.com.ua.
Оценка результатов:
- простая конвертация (например, Excel <-> csv и т.п.) форматов в зачет не идет;
- оценивается кол-во ячеек данных;
- за сложность исходных данных применяется коэффициент:
- х1: табличные данные: пример;
- х1.2: табличные данные с доп. обработкой: пример;
- х1.4: документ со сложной(слабой) структурой: пример 1, пример 2;
- х1.8: разбор простого текста: пример;
- х2: получение данных отсутствующих в открытом доступе через запрос к первоисточнику;
- коэффициенты могут объединяться;
Правила могут изменяться.