syntax

Корпусная лингвистика

Глубоко аннотированный корпус русских текстов СинТагРус (Syntactically Tagged Russian text corpus), разрабатываемый в Лаборатории в течение ряда лет, – составная и в то же время автономная часть Национального корпуса русского языка. По состоянию на начало 2023 года он содержит более 1,5 млн слов (около 107 тыс. предложений). Корпус представляет собой коллекцию текстов разных авторов и разных жанров, в которой каждое предложение снабжено детальной синтаксической структурой в виде дерева зависимостей. Корпус содержит также другие виды аннотации: лексико-семантическую (для многозначных слов фиксируется их значение, реализованное в тексте), лексико-функциональную (маркируются словосочетания, допускающие интерпретацию в терминах лексических функций), анафорическую (указываются антецеденты местоимений), микросинтаксическую (отмечаются синтаксически чувствительные фразеологические единицы), темпоральную (маркируются слова и выражения с временным значением).