На программе «Фундаментальная и компьютерная лингвистика» учат строить мир будущего
Кто может научить робота говорить? Кто, используя мощь компьютеров, исследует, как устроен язык? Кто одновременно — технарь и гуманитарий? Ответ — специалист по компьютерной лингвистике. Таких специалистов тоже готовят в Вышке. О программе «Фундаментальная и компьютерная лингвистика» рассказывает преподаватель Борис Орехов.
Лингвист или инженер?
Современная компьютерная лингвистика — это фактически инженерная область, которая решает практические прикладные задачи, делая жизнь человека лучше и удобнее. Можно сказать проще: если вы видели фантастические фильмы с огромными небоскрёбами, летающими автомобилями, умными разговаривающими роботами и задумывались о том, кто же все эти прекрасные люди, которые построят для нас дивный мир будущего, то среди прочих в этом будет немалый вклад и компьютерных лингвистов.
Вот у вас есть много-много текстов: записи в твиттере количеством сотни тысяч штук, отзывы о товарах и фирмах на интернет-форумах. Прочесть это всё глазами невозможно. А лингвист может обучить машину правильно читать эти тексты, видеть в них наиболее важное, систематизировать и выдавать конечному пользователю сжатый понятный результат. Или — что ближе к картинам из мира будущего — именно лингвист будет учить умных роботов разговаривать с человеком, понимать речь на разных языках, слышать интонацию, отличать иронию от прямого высказывания.
Есть и какая-то очень небольшая часть компьютерной лингвистики, которая пытается, используя мощь компьютера, ответить на чисто академические вопросы о том, как устроен язык, и мы пытаемся говорить об этом на нашем направлении тоже. Потому что стремление к получению и накоплению нового знания — одно из важных свойств человека как вида вообще.
Особенностью компьютерных лингвистов, разумеется, является способность заглядывать в две разные области: в программирование и в лингвистику. Специалист, подкованный и в этом, и в том может более адекватно оценить тайминг программистской задачи, а главное — способен объяснить программисту, что именно нужно сделать, на его, программиста, языке. Это нетривиальная задача и часто именно на её решение уходит достаточно много проектного времени. Компьютерный лингвист может быть своего рода переводчиком, владеющим разными языками, но не языками в традиционном смысле этого слова —в данном случае я имею в виду знания и навыки узких специальностей.
Чему и как учат
Интерес нашей программы именно в том, что мы умеем дать нашим студентам представление о разных областях: познакомить их и с лингвистическими материями, и с программированием. Программирование у нас обязательный предмет с первого курса. Чем бы в дальнейшем ни собирался заниматься человек, он обязательно научится писать хотя бы самые простые программы. А если захочет, то и большие и сложные — тоже. Это помогает и самому справляться с жизненными вызовами (нужно срочно сделать большую рутинную работу, которую удобно было бы переложить на компьютер), и разговаривать с профессиональными программистами на их языке. И то и другое — крайне полезные умения.
Одновременно с этим наши студенты постигают и премудрости лексической семантики, грамматической типологии, имеют твёрдые знания о фонетике и синтаксисе. Наконец, в их программе есть и собственно компьютерная лингвистика — предметы, которые помогают обе составляющие — компьютерную и лингвистическую — соединить в один предмет с его целями, задачами и методами. Как извлечь из текста имена собственные? Как определить эмоциональную окраску текста? Как определить, какие слова в большом массиве текстов похожи одно на другое? Это всё необходимые кирпичики того самого прекрасного будущего, без которых не обойтись и которые постигают наши студенты.
И в итоге каждый студент находит что-то своё: кто-то погружается в программирование, и с ним связывает своё будущее, кто-то сосредотачивается на тайнах языка и попытках их разгадать.
Кроме традиционных форм учёбы (лекции, семинары, курсовые работы) у нас очень развита проектная работа. Студенты разбиваются на группы, и учась друг у друга и у курирующего их преподавателя, решают какие-нибудь жизненные задачи. Например, год назад мы занимались сбором большой коллекции записей в блогах, ценного источника знаний о современном русском языке. Одновременно с этим мы делаем много справочных ресурсов, баз данных (например, по лексике древнерусского языка, по формам древнегреческого стиха), которые доступны в Интернете не только нам, но и всем интересующимся, так что для учащихся это не просто работа «за оценку», но и возможность сразу сделать что-то открытое всему миру, public good.
И о работе
Компьютерно-лингвистические позиции (а иногда и целые отделы) существуют и в крупных компаниях («Яндекс», «ABBYY»), и в фирмах поменьше (например, «Наносемантика»). Но мы, как сотрудники национального исследовательского университета, всегда надеемся, что наши студенты будут заниматься и наукой — у нас или в одном из западных университетов.
Екатерина Агеева, студентка программы «Фундаментальная и компьютерная лингвистика», лауреат премии Google имени Аниты Борг
Я выбрала программу «Фундаментальная и компьютерная лингвистика» по нескольким причинам. Во-первых, в этой программе интересное сочетание дисциплин: с одной стороны, гуманитарные — иностранные языки и теория языка в целом, а с другой стороны, точные — математика и программирование. Поскольку я была заинтересована и в тех, и в других, этот выбор отлично оправдал себя.
Вторая причина — это бурное развитие профессии. Прикладная лингвистика — наиболее близкая мне область — тесно связана с областью компьютерных наук, где сейчас много возможностей для работы и самореализации. Признаться, недостатка в работе во время обучения я не испытывала. И это третья причина выбрать программу: будучи студентом, можно стать участником самых разных лабораторий и групп. В них можно уже с первого курса заниматься настоящими проектами и исследованиями, почувствовать, что значит быть лингвистом, опубликовать пару научных статей и получить за это зарплату.
Ещё одно преимущество программы — это связи; дело в том, что наши преподаватели — активные участники лингвистического научного сообщества, и они всячески помогают студентам влиться в него. Это помогает и в работе: например, прошлым летом я стажировалась в испанской компании Apertium в рамках программы Google Summer of Code. Когда руководитель стажировки захотел узнать больше обо мне, он обратился к своей коллеге из ВШЭ, которая, по стечению обстоятельств, оказалась моим научным руководителем. За годы обучения мне и моим коллегам-студентам удалось познакомиться и даже сотрудничать с ведущими учёными-лингвистами из разных стран.
Учиться у нас сложно и интересно. Расписание всегда плотное, особенно учитывая большое число курсов по выбору — а выбрать порой непросто, потому что хочется посещать всё. Программа составлена так, что можно углубиться в заинтересовавшую область лингвистики, а можно попробовать всего понемногу, даже из смежных гуманитарных или технических дисциплин. Вообще, междисциплинарность — это козырь нашей программы: если у вас есть интерес к психологии, литературе, философии, истории, математике или компьютерным наукам, то вы легко найдёте направление лингвистики, связанное с одной из этих областей. А главное — не только направление, но и преподавателя, курс или целую лабораторию, которая занимается именно этим и готова научить и вас.
Вам также может быть интересно:
Как компьютерные лингвисты изучают драму и создают игры
Магистерская программа «Компьютерная лингвистика» дает возможность применять полученные знания и в бизнесе, и в исследовательской сфере. О том, как это происходит, рассказывают выпускницы программы. Одна из них занимается разработкой компьютерных игр, другая исследует русскую драму в Оксфорде.
Выпускница ВШЭ получила премию Бертрана Мейера
Полина Казакова, окончившая образовательную программу «Фундаментальная и компьютерная лингвистика», стала лауреатом премии Бертрана Мейера за лучшую исследовательскую работу на конференции SECR.
Студент Вышки выступит на ACL — главной конференции по компьютерной лингвистике
Статья студента 4 курса факультета компьютерных наук Артема Гадецкого была принята на международную конференцию Association for Computational Linguistics — единственную конференцию по компьютерной лингвистике уровня A*. Согласно системе CORE, которая ранжирует крупные конференции по computer science, конференции типа A* — это конференции высшего уровня.
В Нижнем Новгороде прошла международная научная школа по информационному поиску
Завершила работу VIII международная школа-конференция RuSSIR-2014 (Russian Summer School in Information Retrieval – Российская летняя школа по информационному поиску), организованная Высшей школой экономики в Нижнем Новгороде и компанией РОМИП.
Компьютерная лингвистика: первые выпускники
В Нижегородском кампусе ВШЭ прошла защита дипломных работ первого выпуска магистерской программы «Компьютерная лингвистика». Публикуем мнения выпускников о программе.