Общеязыковые корпусы русского языка: подкорпусы художественных текстов

Суровцева Екатерина Владимировна

С 2012 года на филологическом факультете Московского государственного университета имени М. В. Ломоносова преподаётся дисциплина «Компьютерные технологии в филологии», программа которой разработана для магистрантов литературоведческих специальностей на основе русистского образования. Одной из тем курса являются подкорпусы художественных текстов в составе общеязыковых корпусов русского языка. На настоящий момент нам известны два корпуса русского языка, созданных, в том числе, и на материале русской литературы — Национальный корпус русского языка и корпус русского литературного языка. Кратко рассмотрим оба.

1. Национальный корпус русского языка (художественные тексты в составе корпуса; поэтический подкорпус) [4].

Национальный корпус языка представляет данный язык на определенном этапе его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус русского языка функционирует в Интернете с 2003 года и в данный момент включает самые разные русские тексты общим объемом 140 миллионов словоупотреблений. Отметим, что состав корпуса постоянно пополняется. Большинство крупных языков мира уже имеет свои национальные корпусы (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC). Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Национальный корпус предназначен в первую очередь для научных исследований лексики и грамматики языка. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). В распоряжении ученого и преподавателя оказываются колоссальные массивы текстов самого разного типа.

Национальный корпус русского языка создаётся специалистами по корпусной лингвистике и охватывает период с середины XVIII века до начала XXI века [2; 5; 6; 7]: этот период представляет язык в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, поэзия). Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Национальный корпус русского языка в настоящее время включает следующие подкорпусы:

основной корпус, в который входят прозаические (включая драматургию) письменные тексты XVIII — начала XXI века. Его можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведётся одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса;
синтаксический (глубоко аннотированный) корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);
газетный корпус (корпус современных СМИ), в котором представлены статьи из средств массовой информации 1990–2000-х годов;
параллельные корпусы, в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка;
корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;
корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам;
обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;
корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов;
акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;
мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930–2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.).

Для литературоведа ценны прежде всего Поэтический подкорпус, Паралллельный подкорпус, а также возможность поиска информации в художественных текстах — мы можем отобрать текст (тексты) по названию, по автору, по полу автора, по году рождения автора, по году создания текста, все художественные прозаические тексты, отдельный жанр художественной прозы, отдельный тип художественного текста, тексты в соответствии с местом и временем описываемых событий. В этом случае следует пользоваться функцией «Задать подкорпус» (чтобы воспользоваться этой функцией, надо нажать на «Поиск в корпусе»). Если нам нужно отобрать тексты определённого жанра или типа, то для этих целей создана система фильтров. Получив список текстов по нужным нам параметрам, нажимаем «Сохранить подкорпус и перейти к странице поиска», после чего оказываемся на странице поиска слов и словоформ, при этом их поиск будет вестись не по всему НКРЯ, а в нашем подкорпесу. Следует иметь в виду, что специалисты по корпусной лингвистике обычно не слишком хорошо владеют литературоведческой терминологией — так, басню, повесть, рассказ надо искать в разделе типов текста, а не а жанрах, при этом детектив и боевик, историческая проза оказались в разделе жанров текстов, хотя для литературоведа очевидно, что не жанры, а тематика. Хотелось бы обратить внимание на возможность поиска по месту и времени описываемых событий.

Для литературоведения важны также некоторые нехудожественные тексты — например, публицистические (их надо искать в разделе «Сфера функционирования»), мемуарно-биографические и церковно-богословские (житие, послание, поучение и пр.) тексты (их надо искать в разделе «Тип текста»). Нехудожественные тексты можно также отбирать по тематике.

Система поиска позволяет также отбирать тексты в старой либо новой орфографии (тексты, написанные до 1918 г., даются в послереформенной орфографии; те особенности оригинальной орфографии, которые сохраняются в научных переизданиях, сохраняются и в Корпусе).

В Поэтическом корпусе (открылся в 2006 году) (см. [1]) существуют стандартные типы поиска и нестандартные типы поиска — можно производить отбор текстов не только согласно обычной семантической и морфологической разметке, но и по жанру, по метру, по стопности, по клаузуле, по типу строфы, по типу рифмы, а также по всем перечисленным параметрам. В корпус пока не включены стихотворные драматические сочинения. Отметим, что Национальный корпус сопровождается перечнем и толкованием основных стиховедческих терминов.

2. Корпус русского литературного языка (художественные тексты в составе корпуса) [3].

Руководитель проекта — д.филол.н., проф., акад. РАО Л. А. Вербицкая, ответственный исполнитель — д.филол.н., проф. В. Б. Касевич (СПбГУ). Помимо сотрудников Санкт-Петербургского государственного университета, в работе участвовали также сотрудники Института лингвистических исследований РАН (СПб).

Корпус русского литературного языка задуман как представленный в электронной форме массив морфологически аннотированных текстов на русском литературном языке.

На апрель 2009 года (состав текстов, видимо, не обновляется) корпус содержит тексты со сбалансированным жанровым составом (художественная проза — не менее 30 %, публицистика — не более 30 %, научная литература (аналитика и обзоры, научно-популярная) — не более 20 %, а также драматические произведения (как некоторое приближение к разговорному языку) — около 20 %), насчитывающие чуть больше 1 млн. словоупотреблений. В корпус включаются тексты с начала 50-х гг. XX века до настоящего времени. Все тексты корпуса разбиты на следующие разделы: Беллетристика, то есть художественная проза (69 наименований), Публицистика (225 наименований), Драматургия (47 наименований), Научно-популярная литература (38 наименований) (как видно из данного перечисления, поэзия в корпус не входит).

На базе корпуса создан частотный словарь словоформ. Авторы корпуса заявляют также о подготовке морфологически аннотированного варианта текстов корпуса. По корпусу создан частотный словарь акцентуированных словоформ, насчитывающий около 125 тыс. единиц. Акцентуированный корпус помогает осуществлять: поиск в словаре словоформ; частотный словарь акцентуированных словоформ за исключением имен собственных (файл в формате Excel); создание конкорданса по текстам корпуса; создание конкорданса по текстам речевого корпуса.

С точки зрения его статуса и типа Корпус русского литературного языка создается как аналог таких известных корпусов, как Британский национальный корпус, Национальный американский корпус, Национальный корпус чешского языка и др.

Если при запросе установить флажок «не раличать е и ё», то будут выданы все имеющиеся варианты, как с «е», так и с «ё». Поскольку тексты, включенные в корпус, и составленнный на их основе частотный словарь содержат составные слова, предусмотрена возможность поиска составных слов, содержащих слово, заданное в запросе.

В ответ на свой запрос пользователь получает таблицу, содержащую имеющиеся в словаре слова с их частотами по жанрам текстов, представленных в корпусе, и по всему корпусу в целом.

Помимо работы с частотным словарем пользователю предоставляется возможность создания конкорданса, т. е. набора примеров-цитат из текстов корпуса, содержащих заданное в запросе слово. На каждое слово будет выдана строка, содержащая это слово, а также две предшествующие и две следующие строки. С конкордансом пользователь имеет возможность работать либо непосредственно с сайта, либо может получить по e-mail соответствующий текстовый файл в желаемом формате и кодировке, прислав запрос на гостевую страницу. Правила создания запроса примерно такие же, как при поиске в частотном словаре.

При работе с текстами драмы возможны расхождения между частотами словоформ, полученными по словарю и конкордансу: при создании словаря тексты авторских ремарок были отнесены к жанру беллетристики, а программа создания конкорданса этого не учитывает. Различается работа с нижним-верхним регистром: если запрос задан только в нижнем регистре, программа работает в режиме игнорирования регистра; если слово запроса начинается в верхнем регистре, выдаются только реализации запрошенного слова.

При анализе данных, полученных по нашему запросу, литературовед должен осуществлять отбор материала — из общего его массива необходимы результаты из разделов беллетристики и драматургии, а также публицистики.

Автор данной статьи будет благодарен за пожелания и советы по расширению материала.

Литература:

Гришина Е. А., Корчагин К. М., Плунгян В. А., Сичинава Д. В.Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб., 2009, 71–113.
Дич Н. Л. О текстах XIX века в Национальном корпусе русского языка // Национальный корпус русского языка: 2003–2005. М., 2005, 89–93.
Корпус русского литературного языка — http://www.narusco.ru/.
Национальный корпус русского языка — http://www.ruscorpora.ru/.
Оскольская С. А. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб., 2009, 46–51.
Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб., 2009, 27–45.
Савчук С.О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб., 2009, 52–70.

Молодой учёный

Общеязыковые корпусы русского языка: подкорпусы художественных текстов

Общеязыковые корпусы русского языка: подкорпусы художественных текстов

Молодой учёный