В работе предложены структура словарной статьи и ее реализация в MicrosoftOfficeAccess, а также функции корпусного словаря для Национального корпуса тувинского языка.
Ключевые слова: корпус языка, корпусный словарь, электронный словарь, модели данных для словарей.
В настоящее время активно создаются корпусы естественных языков с помощью современных информационных технологий и методов математического моделирования. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные типы письменных и устных текстов, представленных в данном языке, различные типы словарей, а также разметку — информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов [2]. Традиционно в корпусах используются следующие типы разметки: метатекстовая, морфологическая, синтаксическая, семантическая и др. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. На основании корпусов решаются многие филологические и лингвистические задачи. Для многих языков народов Российской Федерации, в том числе для тюркских языков, создаются национальные корпусы. Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов [1, 2].
Словари — важная часть корпуса. Различают несколько типов словарей. Словари в корпусах, как правило, многофункциональны. Корпусный словарь содержит всю лингвистическую информацию о каждом слове. В корпусах используются следующие основные типы словарей: диалектные, грамматические, орфографические, словообразовательные, переводные.
Диалектные (областные) словари — разновидность толковых словарей, описывающих лексику одного или группы говоров (диалектов). Диалект (от греч. dialektos — разговор, говор, наречие) — разновидность данного языка, употребляемая в качестве средства общения лицами, связанными тесной территориальной, социальной или профессиональной общностью.
Грамматические словари — это словари, которые содержат сведения о морфологических и синтаксических свойствах слова. Морфология (от др.-греч. — «форма» и «учение») — раздел грамматики, изучающий части речи, их категории и формы слов. Синтаксис (от др.-греч. — «построение, порядок, составление») — раздел лингвистики, изучающий строение словосочетаний и предложений.
Орфоэпические словари — словари, отражающие правила литературного произношения. Орфография — раздел лингвистики, изучающий правильность написания слова при письме. Орфоэпия (от др.-греч — «правильный» и греч. — «речь») — раздел фонетики, занимающийся нормами произношения, их обоснованием и установлением.
Словообразовательные словари (деривационные словари) — словари, показывающие членение слов на составляющие их морфемы, словообразовательную структуру слова, а также совокупность слов (словообразовательное гнездо) с данной морфемой — корневой или аффиксальной. Слова в словообразовательных словарях приводятся с расчленением на морфемы и с ударением.
Переводные словари — словари, содержащие сопоставление слова одного языка их переводным эквивалентам на другом языке (или на нескольких других языках, в таком случае переводной словарь является многоязычным). Переводные словари условно разделяют на две большие группы:
– общелексические переводные словари. Переводят общую лексику с одного языка на другой или на несколько иностранных языков;
– научные, научно-технические и технические переводные словари. Включают в себя специальные термины по основным отраслям науки и техники.
Несмотря на то, что существуют различные типы словарей, в их структуре можно выделить составные части, присутствующие под разными названиями практически во всех словарях. К таким элементам относятся [3]:
– введение или предисловие (Introduction или Preface);
– раздел «Как пользоваться словарем» (User’s Mannual или Guide to the Dictionary);
– ключ к системе транскрипции, применяемой в словаре (Transcription Codes или Keys to the Transcription);
– список сокращений, используемых в словаре, и их объяснения (Contractions или Contraction Codes / Keys);
– корпус словаря (Corpus или The Body of the Dictionary), то есть основной список слов, представленных их словарными статьями;
– дополнительный материал, то есть различные приложения.
Корпус словаря составляют словарные статьи. Ступиным Л. П. в англо-русских переводных словарях выделены следующие части словарной статьи: entry word / catch word / head word — заглавное слово; sense / meaning of the word — значение слова; definition — толкование, определение; verbal illustration / quotation — цитата, иллюстрация; reference — отсылка; label — метка; status label — метка о временной или территориальной ограниченности употребления слова; regional label — метка о территориальной употреби-тельности слова; functional label — метка о принадлежности слова к части речи; subject label — метка о принадлежности слова к определенной области знаний [3].
При разработке словаря для корпуса тувинского языка взята за основу структура словарной статьи Ступина Л. П. Словарная статья в корпусе тувинского языка имеет следующую структуру:
– заглавное слово;
– перевод (на русский язык, на английский язык и на другие языки);
– транскрипция;
– звучание заглавного слова;
– метка о морфологических признаках (часть речи, число, падеж, склонение, спряжение);
– значение слова;
– этимологическая справка;
– метка о принадлежности к аббревиатурам;
– метка о наличии синонима, омонима и антонима;
– дополнительная информация о слове.
База данных корпусного словаря включает следующие таблицы: main — основная таблица с заголовочным словом; rus, eng, ger — таблицы с переводом заголовочного слова на различные языки; morphology — таблица с морфологическими данными. Структура этих таблиц представлена на рис.1–4. База данных реализована в MicrosoftOfficeAccess. Для работы с корпусным словарем реализованы следующие функции: добавление новой статьи (рис. 5); редактирование статьи (рис. 6); удаление статьи (рис. 7); поиск словарной статьи с транскрипцией (рис. 8); формирование и визуализация морфологических признаков заглавного слова (рис. 9).
Рис. 1. Структура таблицы main
Рис. 2. Структура таблицы rus
Рис. 3. Структура таблицы eng
Рис. 4. Структура таблицы morphology
Рис. 5. Интерфейс для добавления новой словарной статьи
Рис. 6. Интерфейс для редактирования статьи
Рис. 7. Интерфейс для удаления статьи
Рис. 8. Поиск словарной статьи с транскрипцией
Рис. 9. Морфологические признаки заглавного слова
Представленная выше структура словарной статьи и ее реализация в MicrosoftOfficeAccess позволяет рассматривать корпусный словарь как мультиструктурную организацию со сложным иерархическим строением, важнейшим корневым компонентом которого является словарная статья. Словарная статья является единицей корпусного словаря, которую можно формировать в различных аспектах и использовать для различных назначений: изучение тувинского языка с точки зрения написания, произношения, толкование, перевода на другие языки; формирование морфологической, синтаксической и семантической разметки текстов, входящих в корпус; играть роль тезауруса при анализе текстов; для организации поиска в корпусе.
В дальнейшем предполагается выполнение работ по формированию корпусного двуязычного словаря (тувинско-русского и русско-тувинского) с заполнением основных полей словарных статей преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов.
Литература:
- Бавуу-Сюрюн М. В. Тувинский язык на современном этапе [электронный ресурс]. Режим доступа: http://www.tuva.asia/journal/issue_7/2158-bavyy-suyruyn-mv.html
- Салчак А. Я., Байыр-оол А. В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образование, 2013. № 6. С. 408-409.
- Ссорина М. С. Словарь как мультиструктурная организация // Ярославский педагогический вестник — 2011 — № 1. - Том 1 (Гуманитарные науки).