С 2012 года на филологическом факультете Московского государственного университета имени М. В. Ломоносова преподаётся дисциплина «Компьютерные технологии в филологии», программа которой разработана для магистрантов литературоведческих специальностей на основе русистского образования. Программа дисциплины предполагает, в частности, знакомство с электронными корпусами русской классики. В настоящей статье речь пойдёт об известных нам корпусах классики первой трети XIX века — о «Словаре языка А. С. Грибоедова» и о Корпусной информационно-поисковой системе «Поэзия и драматургия А. С. Пушкина и Путеводитель по Пушкину» (выпуск 1).
Словарь языка А. С. Грибоедова [3].
Этот словарь, доступный через интернет-ресурс, представляет собой первое полное лексикографическое описание языка Грибоедова.
Основную часть словаря составляет алфавитно-частотный конкорданс к текстам Грибоедова, снабженный грамматической информацией, которая основана на «Грамматическом словаре русского языка» А. А. Зализняка. Конкорданс включает более 12 тысяч словарных статей (более 150 тысяч словоупотреблений). Словарная статья включает лексему (заголовочное слово), её грамматические признаки (часть речи, вид, род, одушевленность), суммарную частоту по всем текстам. В случае омонимии к заглавной форме добавляются цифровые индексы, в основном соответствующие словарю А. А. Зализняка, например: град1 [осадки] — град2 [город], знать1 с.ж.неод. — знать2г.нсв. — знать3 вводн. В некоторых случаях к словам даётся толкование (объясняются не только омонимы, но и устаревшая лексика, например, бек). Словоупотребления внутри статьи сгруппированы по грамматической форме (число, падеж, наклонение, время). Каждое словоупотребление содержит контекст и адрес, который включает код источника и его фрагмента (часть, глава, действие, явление и т. д.). Указывается также адрес данного словоупотребления в корпусе текстов, достаточный для его идентификации при цитировании. Адрес включает в себя: 1) код произведения; 2) названия или номера явно выраженных структурных элементов текста (действие, явление, реплика, ремарка, заголовок). Отметим, что электронная система позволяет осуществить переход по гиперссылке (в виде гиперссылки оформлен адрес) в полный текст произведения.
Кроме конкорданса, словарь включает ряд вспомогательных словарей и указателей, в частности: 1). алфавитный указатель к тексту «Горя от ума»; 2). частотный словарь; 3). частотные словари прозаической и поэтической речи; 4). обратный алфавитный словарь; 5). грамматический словарь.
Все тексты содержат детальную разметку структурных элементов текста (заголовки, действия, явления, реплики, ремарки, строки, страницы), что необходимо для точной адресации каждого фрагмента текста. Размеченный корпус представляет собой базу, на которой становится возможным проводить объективные исследования авторского языка, а также легко получать различные виды словарей: конкордансы, частотные, обратные, грамматические, с разделением по видам текстов, видам речи, персонажам и т. д.
Данная технология изначально ориентирована на электронную форму представления информации. Электронная форма открывает целый ряд возможностей: поиск и отбор лексики по любым критериям, динамическая сортировка и группировка, просмотр словаря в различных видах, быстрый переход из словаря в корпус текстов, выдача информации в различных форматах. Кроме того, электронная форма не имеет ограничений по объёму.
Основой формой словаря является алфавитно-частотный конкорданс к авторским текстам, где лексемы отсортированы в алфавитном порядке, а словоупотребления внутри статьи — по грамматической форме. Путем различной проекции и сортировки из той же самой словарной базы получаются другие виды словарей.
Академического собрания сочинений классика до сих пор не существует, поэтому для словаря тексты отбирались из наиболее полных и авторитетных изданий произведений А. С. Грибоедова.
Исходный материал для словаря включает только авторский текст, причем грамматически оформленный. Соответственно, из рассмотрения исключаются: 1). числа, записанные цифрами, однако цифры с грамматическим маркером включаются в рассмотрение; 2). инициальные сокращения; общеизвестные сокращения, если возможно, восстанавливаются до полной формы; 3). точные цитаты из других авторов; однако неточные цитаты в авторской передаче включаются в рассмотрение как элемент авторского языка. Из опубликованных текстов были исключены также фрагменты, написанные другими авторами.
В словарь включены слова, употребляющиеся в служебных элементах текста: заголовках структурных элементов (действий, явлений, реплик), ремарках, сносках (в других словарях писателя этот пласт лексики отсутствует). Все такие употребления обозначены с помощью специальных помет. Кроме того, в словарь включены и собственные имена: личные имена, отчества, фамилии и прозвища; географические названия и производные от них прилагательные; названия произведений, изданий и др. Из-за ограничений объема собственные имена из печатного издания исключены, но они доступны в электронной версии словаря.
В словаре даётся также расшифровка условных знаков и сокращений (сущ., прил., муж., ед., несов. и пр.), обозначения грамматических особенностей (* — нестандартная форма,? — сомнительная исходная форма или грамматический признак), кодов и названий произведений (например, ГоУ обозначает «Горе от ума», ГН обозначает «Грузинская ночь», Пс1, 2, 3 и т. д. обозначают письма, С1, 2, 3 и пр. обозначают стихотворения, и так далее).
Корпусная информационно-поисковая система «Поэзия и драматургия А. С. Пушкина и Путеводитель по Пушкину» (выпуск 1) [1] (см. также буклет с информацией [2]).
Корпусная информационно-исследовательская система (КИИСа) предназначена для работы с корпусами текстов. Она дает возможность работать с организованной и размеченной разными типами информации коллекцией текстов (корпусом) как в обычном, полнотекстовом режиме, так и в режиме просмотра конкордансов. Система также включает в себя в качестве отдельного компонента связанную с единицами корпуса справочную базу. Система разработана в лаборатории общей и компьютерной лексикологии и лексикографии (ЛОКЛЛ) кафедры русского языка филологического факультета МГУ им. М. В. Ломоносова. В настоящее время содержание Интернет-версии этого диска может быть просмотрено по адресу http://www.philol.msu.ru/~lex/kiisa.html. Интернет-версия диска представлена в виде системы «клиент-сервер». Запуск программы осуществляется с помощью файла: Kiisa.exe.
В корпус «Поэзия и драматургия А. С. Пушкина» вошли все поэтические и драматические произведения поэта, исключая черновики, не опубликованные Пушкиным варианты, наброски и редакции, тексты с пометой «Dubia». Тексты произведений соответствуют академическому изданию. В корпусе сохраняется орфография данного издания. В корпус входят: текстов — 880, словоупотреблений — 200995, разных словоформ — 37721, разных лексем — 15301.
С текстами корпуса связана справочная словарная база «Путеводитель по Пушкину», содержащая, в частности, пушкинские примечания и сведения об авторах коллективных произведений и др. Тексты корпуса размечены информацией 15-ти типов, представляющей интерес как для литературоведов, так и для лингвистов.
Доступ к текстам корпуса и их исследование осуществляется через режим «Конкорданс». В этом режиме систему можно использовать и для простого чтения текстов произведений. При исследовании текстов основным инструментом их изучения служат именно конкордансы.
Каждый из конкордансов группирует материал корпуса особым образом, в соответствии с выбранным типом информации. При выборе конкретного типа информации открывается словник нужного конкорданса, для каждого из элементов которого можно получить: список его контекстов; сведения о его частотности; адрес элемента, т. е. текст, из которого взят его контекст.
Единицы конкорданса могут быть отсортированы трояким образом — по алфавиту, по убыванию частоты, а также по концам (обратная алфавитная сортировка). Контексты, тексты, а также словники (объемом не более 1000 единиц) могут быть помещены в буфер и сохранены в текстовый файл. Кроме того, для единиц ряда конкордансов («Слова», «Гиперслова», «Адресаты») автоматически выдается дополнительная информационная справка. Помимо уже готовых конкордансов, выбираемых из меню «Тип информации», система позволяет пользователю получать новые конкордансы. Для этого используется функция «Фильтр». Установка Фильтра на одном из элементов словника конкорданса позволяет «пересечь» информацию. Полезной функцией системы является возможность анализа совместной встречаемости элементов.
Типы информации, имеющиеся в корпусе (доступ к этой информации осуществляется через «Тип информации»): 1. Словоформы; 2. Слова; 3. Части речи; 4. Варианты слов; 5. Семантические классы (три класса: Города, страны, народы; Персонажи и лица; Цвето- и светообозначения); 6. Гиперслова; 7. Названия; 8. Адресаты; 9. Дата; 10. Период творчества; 11. Тип текста; 12. Части произведений; 13. Композиционные элементы: единицы; 14. Иноязычные тексты; 15. Концы стихотворных строк.
В системе имеются два основные компонента — «Конкорданс» и «Путеводитель по Пушкину». Через компонент «Конкорданс» осуществляются основные виды операций с корпусом — работа со словниками, контекстами и переход в полный текст произведений. Этот компонент активируется по умолчанию. Все операции с корпусом осуществляются из закладки «Конкорданс». В этом режиме возможны следующие виды действий: операции со словниками, операции с текстами, операции с контекстами.
В окне «Тип информации» мы можем выбирать нужный нам тип. Выбранный словник является основным рабочим инструментом. На каждый из его элементов можно получать контексты, данные о сочетаемости с другими элементами, а также характеристику по любому типу информации. Единицы любого словника могут быть отсортированы, как уже говорилось выше, тремя способами.
Каждая единица словника сопровождается информацией о количестве словоупотреблений, на нее приходящихся. Цифры под окном словника обозначают объем показываемого на экране фрагмента словника, общее количество его единиц (в скобках) и номер строки словника, на которой стоит курсор.
При использовании фильтра справа от единиц словника появляется не одна, а две колонки с цифрами. Фильтр позволяет определить, какие именно значения того или иного типа может иметь «фильтруемая» единица и в каком количестве случаев она имеет то или иное значение. При фильтрации дается две характеристики: количество случаев употреблений, в которых «фильтруемая» единица имеет данное «значение» (левая колонка), и общий объем употреблений с этим значением в корпусе (правая колонка). При фильтрации к характеристикам словника, показываемым под ним, добавляется еще один показатель — номер единицы словника в общем, «нефильтрованном» списке единиц данного типа информации. Этот показатель стоит последним и в скобках.
Выбрав нужную единицу в словнике, нужно установить флаг в окошке «Фильтр». После его установки происходит автоматическая смена типа информации в окне словника. Если появившийся тип информации не соответствует тому, что требуется, необходимо поменять его на нужный в окне «Тип информации». Для словников объемом менее тысячи единиц возможно копирование в файл.
При перемещении по словникам некоторых видов конкордансов («Слова», «Гиперслова», «Адресаты», «Иноязычные тексты») может появляться окно со статьей из «Путеводителя по Пушкину». Оно возникает в том случае, если соответствующая единица описана в «Путеводителе». В правом верхнем углу находится окно «Совместная встречаемость», позволяющее проводить анализ сочетаемости какого-либо элемента словника. После определения позиции «соседа» необходимо выбрать исследуемый его признак (начальную форму, часть речи, семантический класс и пр.).
Возможно осуществление перехода из окна словника в окно контекстов и обратно. В окне контекстов слева имеются две закладки — «Контекст» и «Текст». В открывающейся по умолчанию закладке «Контекст» содержится весь набор контекстов на ту единицу словника, с которой был осуществлен выход в окно контекстов. Возможно также изменение длины контекста. Кроме того, система позволяет сортировать контексты.
По умолчанию в контекстах представлены словоформы. Однако в исследовательских целях бывает полезно представить контексты в виде последовательности не реальных словоупотреблений, а лексем, частей речи и пр. В некоторых случаях необходимо получение адреса контекста, т. е. названия произведения, которое сохраняется при копировании в файл. Если произведение большое и одного названия недостаточно, то можно уточнить адрес с помощью выбора типа информации «Части произведений». В системе есть функции перехода из контекста в нужное место текста и копирования контекстов в файл. При копировании в текст записывается сопровождающая информация, которую можно настраивать. Возможен не только переход в текст, но и перемещение по нему. Кроме того, возможно копирование текста в файл.
Перейдя в закладку «Путеводитель», мы получаем доступ к данным справочной базы, созданной на основе «Путеводителя по Пушкину», энциклопедическому справочнику, созданному ведущими пушкинистами XX века. В «Путеводитель» нами добавлен ряд ссылок, а также несколько статей, составленных на основе примечаний и указателей, имеющихся в Академическом издании. Это примечания и предисловия Пушкина к собственным произведениям, информация об авторах коллективных произведений, а также переводы на русский язык стихотворений, написанных Пушкиным на франц. языке и переводы всех других иноязычных текстов и слов, входящих в корпус.
В правом верхнем углу находится закладка «Настройка списков», в которой доступна кнопка «Выбор списка элементов» и меню типов элементов. При нажатии кнопки открывается окно, которое позволяет изменить число доступных типов информации и изменить порядок их расположения. Находящееся рядом меню позволяет выбрать, какой именно компонент конкорданса будет настраиваться. По умолчанию в файл, кроме единицы, на которую получены контексты, записываются ключевая словоформа контекста, название произведения и дата его написания.
Система позволяет настраивать шрифты. По умолчанию загрузится Arial. Размер шрифта может быть изменен. Можно также установить шрифт Pushkin.ttf, имитирующий почерк Пушкина. Работу облегчает подробная справочная система, вызываемая через кнопку «Помощь». В ней в гипертекстовом виде и с примерами изложена подробная инструкция и описание корпуса.
Дальнейшая разработка темы предполагает комплексное описание и анализ корпусов русских писателей иных временных периодов.
Литература:
- Кукушкина О. В., Поликарпов А. А., Федотов В. В. Диск CD — ROM: КИИСа. Корпусная информационно-поисковая система. Выпуск 1: «Поэзия и драматургия А. С. Пушкина и Путеводитель по Пушкину». М., Изд.-во МГУ, 2006.
- Кукушкина О. В., Поликарпов А. А., Федотов В. В. Читаем и исследуем. Работа с корпусами текстов с помощью информационно-исследовательской системы КИИСа. Выпуск 1: «Поэзия и драматургия А. С. Пушкина». М.: Изд.-во МГУ, 2006.
- Словарь языка А. С. Грибоедова — http://feb-web.ru/feb/concord/abc/.