Корпусная лингвистика

Глубоко аннотированный корпус русских текстов СинТагРус (Syntactically Tagged Russian corpus), разрабатываемый в Лаборатории в течение ряда лет, – составная и в то же время автономная часть Национального корпуса русского языка. По состоянию на начало 2020 года он содержит более 1,1 млн слов (около 77 тыс. предложений). Корпус представляет собой коллекцию текстов разных авторов и разных жанров, в которой каждое предложение снабжено детальной синтаксической структурой в виде дерева зависимостей. Корпус содержит также другие виды аннотации: лексико-семантическую (для многозначных слов фиксируется их значение, реализованное в тексте), лексико-функциональную (маркируются словосочетания, допускающие интерпретацию в терминах лексических функций), анафорическую (указываются антецеденты местоимений), микросинтаксическую (отмечаются синтаксически чувствительные фразеологические единицы), темпоральную (маркируются слова и выражения с временным значением). Последние три вида аннотации являются экспериментальными и присутствуют не во всех текстах корпуса.

Аннотирование корпуса осуществляется в полуавтоматическом режиме. Вначале парсер (синтаксический анализатор) лингвистического процессора ЭТАП-4 автоматически порождает синтаксическую структуру каждого предложения, а также выполняет лексико-семантическую и лексико-функциональную аннотацию; затем эти данные проверяются и при необходимости корректируются экспертами-лингвистами. Сама эта работа представляет ценнейший ресурс для исследователей – лингвистов и математиков, занимающихся разработкой парсеров, поскольку по результатам массовой работы парсера производится коррекция лингвистических правил и алгоритмов синтаксического анализа.

Корпусы текстов с аннотацией, достигающей синтаксичесого уровня, составляются сейчас для всех крупнейших языков мира, и их значение трудно переоценить. С одной стороны, такие корпусы служат важным источником систематизированных знаний о синтаксисе языка и используются лингвистами при проведении фундаментальных лингвистических исследований. С другой стороны, это важнейшие ресурсы компьютерной лингвистики, с помощью которых можно создавать программы обработки текстов, основанные на статистических методах.

11 февраля 2020