- Meetup
- Location
На конференциях Data & Science специалисты рассказывают о применении больших данных в науке, бизнесе и других сферах жизни. В этот раз мы поговорим об анализе данных в гуманитарных науках.
По мере оцифровки культурного наследия человечества цифровые методы приносят всё большую пользу историкам, литературоведам, социологам. Мы увидим убедительные примеры:
- Как проанализировали тысячи стенограмм первого французского парламента и что получили.
- Как компьютер помогает читать китайские стихи и хороши ли его собственные.
- Как на данных Твиттера проводят глобальные исследования здоровья, а на данных мобильных операторов — исследования бедности.
Доклады будут интересны как специалистам в области науки о данных, так и исследователям-гуманитариям.
Программа
Зал Экстрополис
11:00 Регистрация
12:00 Цифровые методы в гуманитарных науках, Даниил Скоринкин, НИУ ВШЭ, Системный Блокъ
Можно ли применять методы анализа данных и статистики для изучения истории, литературы, живописи и прочих тонких культурных материй? Ещё недавно информационные технологии мало чем могли помочь классической гуманитарной науке.
Но по мере оцифровки культурного наследия человечества ситуация постепенно менялась. Теперь для исследований доступны многотысячные корпуса художественных текстов, цифровые коллекции живописи, обширные исторические базы данных.
Всё это позволяет говорить о приходе data science в гуманитарные исследования. Например, теперь можно проанализировать 45 тысяч стенограмм самого первого французского парламента и найти количественные различия между радикалами и консерваторами в «новизне» речей. Или прогнать через компьютер 137 тысяч картин и научить его разбираться в стилях живописи.
Я расскажу, чем занимаются современные цифровые гуманитарии, почему digital humanities стали суперхайповым направлением на Западе и при чём тут полузабытые русские литературоведы начала XX века.
13:00 Digital Humanities Between Research and Infrastructure (на английском), Frank Fischer, Высшая школа экономики, проект DARIAH-EU
Some might still not be aware of it, but digital aspects are nowadays an integral part of any research project in the Humanities. Talking about algorithms, operationalisation or infrastructures in the context of History or Literary Studies should not result in a too harsh cognitive dissonance any more.
This talk will recapitulate how new methods and tools create new common ground in the research process serving as basis to communicate across disciplines. Never before have the Humanities been so interdisciplinary as under the conditions of the Digital Humanities.
However, the oscillation between hermeneutic research questions and concrete technical implementations has also led to an increase in the degree of complexity. The reaction to this is, among other things, the formation of Digital Humanities project teams, labs, centres, and associations. In addition, the development and maintenance of larger research infrastructures like DARIAH or CLARIN is becoming increasingly important, both locally and internationally.
How do the Digital Humanities operate? How are research questions scaled up using digital technology? And how can an infrastructure support the day-to-day research of individual researchers?
Профессор расскажет о применении современных технологий в гуманитарных науках и о том, как европейский проект DARIAH-EU помогает исследователям-гуманитариям использовать новые методы.
13:30 Перерыв
14:00 Истории о Data Science в истории. Динара Гагарина, НИУ ВШЭ – Пермь
Более 50 лет в России и мире историки применяют статистические и другие математические методы. Хотя некоторые направления (например, экономическая история и историческая демография) под этим влиянием значительно изменились, историческая наука в целом остаётся консервативной, традиционные описательные методы по-прежнему преобладают.
Вместе с тем бум развития методов и инструментов data science последнего десятилетия и массовая оцифровка источников делают своё дело. Количество проектов по анализу и визуализации исторической информации стремительно растёт. Они связаны и с большими массивами данных (такими как 180 млн записей переписи в Великобритании за 60 лет), и с единичными источниками и объектами (например, реконструкции историко-культурных памятников). Кроме того, digital становится оптикой для перехода от микро- к макросюжетам и даёт возможность посмотреть на изучаемый объект в разных временных и пространственных масштабах.
В докладе посмотрим, как выглядит ландшафт digital history сегодня, каковы тенденции и перспективы развития направления.
14:30 Наука о данных в анализе современной культуры. Лев Манович, Cultural Analytics Lab
Современной цифровой культуре присущи отчасти те же характеристики, которые определяют большие данные: объём, разнородность, скорость. Достаточно представить себе миллиарды постов, изображений и видео, которые ежедневно появляются в соцсетях. Новые произведения, которыми миллионы художников, музыкантов и творческих людей самого разного профиля делятся через Behance, Spotify и другие сайты. Рецензии на книги, выставки, фильмы, дискуссии на форумах, обновления статей Википедии… Такого доступа к культуре в реальном времени у исследователей не было никогда, но вместе с тем они получили новую задачу: что делать с этим огромным количеством культурных данных?
Подобно тому, как о больших данных говорили, что это массивы данных, которые слишком велики и сложны для обработки стандартными программами, можно сказать, что цифровая культура слишком обширна и сложна для стандартных методов гуманитарных наук. Как следствие, применение науки о данных — это не один из возможных подходов, а единственный.
Чтобы увидеть современную культуру во всём её масштабе, разнообразии и стремительности, нужны новые вычислительные и математические методы. При этом требуется вдумчивый и критический подход к популярные методы машинного обучения и статистики, а не простое воспроизведение коммерчески успешных методов.
В своей лекции я рассмотрю примеры проектов которые решают эту проблему. В их числе моя Лаборатория культурной аналитики, действующая с 2008 года. Я также расскажу о нашем новом проекте Elsewhere что мы делаем в нашей Лаборатории культурных трендов Тюменского государственного университета. Цель этого проекта — измерить и сравнить культурную активность в сотнях городов по всему миру в разное время начиная с 1990 года. Тюмень представляется логичной отправной точкой для исследования динамики мировой культуры не только в столицах, но и в небольших городах мира.
15:10 Перерыв
15:25 Data Science в социальных науках. Даниил Александров, НИУ ВШЭ в Санкт-Петербурге
Мощные компьютеры и возможности data science изменили социальные науки — за последние десять лет сложилась computational social science. Данные мобильной телефонии или социальных сетей позволяют решать вопросы, к которым ранее ученые и не знали, как подступиться. Я покажу это на примерах исследования социальных факторов здоровья в Америке, бедности в Африке и миграции в Евразии — в том числе на российских данных.
Зал Мулен Руж
14:00 Чем может и чем не может наука о данных помочь науке о литературе. Борис Орехов, НИУ ВШЭ
Наука о данных и литературоведение гораздо больше похожи, чем кажется на первый взгляд. Обе отрасли знания пытаются найти неочевидные закономерности в сложно организованных объектах. Но не любой привычный исследователю данных подход будет осмыслен в исследовании литературы. Я на примерах покажу, какие методы работают и приносят пользу, а какие пока остаются игрушками — и почему.
14:30 Как научить нейросеть генерировать стихи. Илья Гусев, Яндекс, МФТИ
Я расскажу о своём пакете для генерации стихов. Мы рассмотрим понятие языковой модели и возможные варианты её реализации: n-граммы с модификациями и word-level-рекуррентные нейронные сети. Я покажу, как можно использовать конечные автоматы для установки ритмических ограничений на языковую модель и какие стихи в итоге получаются. Кроме того, мы обсудим способы оценки качества получившихся стихов, возможные улучшения, а также некоторые вопросы за рамками технической части проекта.
15:00 Перерыв
15:15 Компьютеры читают: как статистика и нейросети помогают лучше понять поэзию средневекового Китая. Мариана Зорькина, Цюрихский университет, Системный Блокъ
Я расскажу про то, как компьютерные технологии помогают современным исследователям читать художественные тексты. Мы обсудим, как различные подходы, начиная с таких простых, как базовая статистика, и заканчивая нейронными сетями, позволяют лучше понимать поэзию. В частности, мы поговорим о чтении классической китайской поэзии, отличающейся сложной системой образов и отсылок к другим текстам.