Машинный перевод

Синтаксически размеченный корпус, разрабатываемый в Лаборатории уже в течение ряда лет, – составная и в то же время автономная часть Национального корпуса русского языка. По состоянию на конец 2009 года он охватывает около 41 тысячи предложений. Корпус представляет собой коллекцию большого числа текстов разных авторов и разных жанров, в которой каждое предложение снабжено детальной синтаксической структурой. Подобные корпусы текстов составляются сейчас для всех крупнейших языков мира, и их значение трудно переоценить. С одной стороны, синтаксически размеченный корпус служит важным источником систематизированных знаний о синтаксисе языка и используется лингвистами при проведении фундаментальных лингвистических исследований. С другой стороны, это важнейший ресурс компьютерной лингвистики, с помощью которого можно создавать компьютерные программы обработки естественного языка с помощью статистических методов.

Для того, чтобы подобный корпус мог иметь практический интерес, он должен быть достаточно большим. Корпус, создаваемый в Лаборатории, уже достиг той критической массы, которая позволяет приступить к экспериментам по обучению программ синтаксического анализа. Эта работа уже начата совместно со шведскими коллегами.

Поскольку синтаксическая разметка корпуса осуществляется в полуавтоматическом режиме (вначале парсер, т.е. синтаксический анализатор, лингвистического процессора ЭТАП-3, автоматически порождает синтаксическую структуру каждого предложения в виде дерева зависимостей, а затем каждая структура проверяется и при необходимости корректируется экспертами-лингвистами), сама эта работа представляет ценнейший ресурс для исследователей – лингвистов и математиков, занимающихся разработкой парсеров. По результатам массовой работы парсера производится коррекция лингвистических правил и алгоритмов синтаксического анализа.