Как цифровые инструменты помогают гуманитариям
Вышка Онлайн запустила курс «Введение в анализ данных на R для гуманитарных и социальных наук» на портале «Открытое образование». Доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ Георгий Мороз рассказал, зачем гуманитариям анализировать данные, кому будет интересен этот курс и какие необычные задания предстоит выполнить слушателям.
— Расскажите, о чем ваш курс?
— Слушатели гуманитарных и социальных специальностей познакомятся с инструментами, которые позволяют сделать разведочный анализ самых разных типов данных: и обычных табличных данных, и времени, и текста, и геоданных.
Георгий Мороз
Что такое разведочный анализ данных? Это первый и иногда основной этап, когда исследователь пытается как-то обозреть данные, искоренить ошибки ввода данных, понять, чего больше, чего меньше, построить какой-нибудь график и попробовать его проинтерпретировать. Обычно R у всех ассоциируется со статистикой, но в этом курсе статистике уделяется лишь одна неделя из девяти.
— Для кого предназначен курс?
— Курс будет полезен представителям любых профессий. Я занимаюсь лингвистикой — здесь анализ данных в последнее время занял центральное место. Также общаюсь со специалистами и из других областей: с цифровыми гуманитарными исследователями, антропологами, исследователями в области биостатистики и многими другими. Я надеюсь, что благодаря этому курс получился не таким узконаправленным, как мой прошлый курс «R для лингвистов: программирование и анализ данных».
Гуманитарии ничего не смыслят в методах точных наук — так гласит расхожий стереотип. К сожалению, он распространен и снаружи, и внутри научного сообщества. Мы вынесли гуманитариев в название в том числе и для того, чтобы представители этого направления не боялись выбрать курс. Я надеюсь, что таким образом смогу преодолеть эту преграду.
— Какие знания и навыки получат слушатели курса?
— Я бы разделил результаты прохождения курса на минимум и максимум. Как максимум я мечтаю о том, чтобы слушатели курса могли легко перейти от таблички с любыми типами данных к первой визуализации, а от нее — к первым озарениям относительно данных.
При этом я настаиваю, что это должны быть ваши данные. Если мне выдать данные из какого-то произвольного исследования, я, скорее всего, ничего в них не пойму. Усилия, которые люди потратили, собирая информацию, делают их знатоками в предметной области, и только у таких людей будут озарения.
Отсюда легко перейти к программе-минимум: если после прохождения курса у слушателей не возникнет уверенности в том, как переходить от таблички к графику, я очень надеюсь, что они все равно сумеют увидеть диапазон инструментов и их возможностей. Это очень важно, потому что в таком случае можно объединиться с другим исследователем, который легко сделает те шаги, в которых слушатель сам не уверен.
После общения с музейщиками у меня есть такое ощущение, что в наших музеях очень-очень много специалистов, которые используют разные данные, и им только дай человека, который бы все обобщил, и они будут счастливы.
— Зачем гуманитариям уметь анализировать данные?
— Все чаще слышу этот вопрос. Анализ данных — это большой и богатый мир инструментов. В последнее время мы видели много успешных примеров применения этих инструментов в самых разных областях.
Знание о том, какие инструменты есть, и об их возможностях дает дорогу новым открытиям. Но важной мне кажется и другая сторона: нужно знать ограничения известных методов и понимать, что если применять эти методы в области икс, то здесь открытия не получишь.
Мой курс охватывает лишь введение. Методов очень много, и совершенно неважен код, при помощи которого делается та или иная операция, важно, чтобы слушатели чуть-чуть очертили границы возможного.
— Как это работает — что именно делает исследователь, чтобы получить данные?
— В каждой области знания это происходит по-своему. Где-то можно идти от старых, давно заданных вопросов, а где-то можно выбрать другой путь, от данных к обобщениям. Но в любом случае процесс создания датасета — чаще всего скучная и нудная работа, очень монотонная. Обычно это такой большой мешок, в котором нужно отделить зерна от плевел.
— Какие данные гуманитарии могут использовать для анализа? Какие задания ждут слушателей курса?
— Для онлайн-курса я подготовил достаточно большой пул заданий. Большинство из них предполагает анализ какого-то датасета, поэтому я предлагаю оценить разброс:
роман Ф.М. Достоевского «Бесы»;
эпистолярные романы;
возможные продолжения дразнилки «Жадина-говядина»;
данные кладов римских монет;
время работы библиотек России;
высота и ширина утерянных или похищенных из музеев России картин;
многоязычие в Дагестане;
количество человек со злокачественным новообразованием;
описания и рецепты из онлайн-магазина китайского чая и другие датасеты.
Пока я собирал и подготавливал датасеты для онлайн-курса, случились и свои разочарования: например, я составил много заданий на основе датасета с библиотеками России, но основная идея, ради которой я взялся за этот датасет, не выстрелила. На основе этой идеи я сделал сайт-задачку (data-driven-задача!), но в сам курс это задание не попало. Приглашаю всех угадать топ-10 известных людей, в честь которых названы библиотеки России.