Формирование и ведение словарей в корпусе тувинского языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №9 (113) май-1 2016 г.

Дата публикации: 03.05.2016

Статья просмотрена: 192 раза

Библиографическое описание:

Дагбажык, А. С. Формирование и ведение словарей в корпусе тувинского языка / А. С. Дагбажык. — Текст : непосредственный // Молодой ученый. — 2016. — № 9 (113). — С. 57-62. — URL: https://moluch.ru/archive/113/28831/ (дата обращения: 23.04.2024).



В работе предложены структура словарной статьи и ее реализация в MicrosoftOfficeAccess, а также функции корпусного словаря для Национального корпуса тувинского языка.

Ключевые слова: корпус языка, корпусный словарь, электронный словарь, модели данных для словарей.

В настоящее время активно создаются корпусы естественных языков с помощью современных информационных технологий и методов математического моделирования. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные типы письменных и устных текстов, представленных в данном языке, различные типы словарей, а также разметку — информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов [2]. Традиционно в корпусах используются следующие типы разметки: метатекстовая, морфологическая, синтаксическая, семантическая и др. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. На основании корпусов решаются многие филологические и лингвистические задачи. Для многих языков народов Российской Федерации, в том числе для тюркских языков, создаются национальные корпусы. Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов [1, 2].

Словари — важная часть корпуса. Различают несколько типов словарей. Словари в корпусах, как правило, многофункциональны. Корпусный словарь содержит всю лингвистическую информацию о каждом слове. В корпусах используются следующие основные типы словарей: диалектные, грамматические, орфографические, словообразовательные, переводные.

Диалектные (областные) словари — разновидность толковых словарей, описывающих лексику одного или группы говоров (диалектов). Диалект (от греч. dialektos — разговор, говор, наречие) — разновидность данного языка, употребляемая в качестве средства общения лицами, связанными тесной территориальной, социальной или профессиональной общностью.

Грамматические словари — это словари, которые содержат сведения о морфологических и синтаксических свойствах слова. Морфология (от др.-греч. — «форма» и «учение») — раздел грамматики, изучающий части речи, их категории и формы слов. Синтаксис (от др.-греч. — «построение, порядок, составление») — раздел лингвистики, изучающий строение словосочетаний и предложений.

Орфоэпические словари — словари, отражающие правила литературного произношения. Орфография — раздел лингвистики, изучающий правильность написания слова при письме. Орфоэпия (от др.-греч — «правильный» и греч. — «речь») — раздел фонетики, занимающийся нормами произношения, их обоснованием и установлением.

Словообразовательные словари (деривационные словари) — словари, показывающие членение слов на составляющие их морфемы, словообразовательную структуру слова, а также совокупность слов (словообразовательное гнездо) с данной морфемой — корневой или аффиксальной. Слова в словообразовательных словарях приводятся с расчленением на морфемы и с ударением.

Переводные словари — словари, содержащие сопоставление слова одного языка их переводным эквивалентам на другом языке (или на нескольких других языках, в таком случае переводной словарь является многоязычным). Переводные словари условно разделяют на две большие группы:

– общелексические переводные словари. Переводят общую лексику с одного языка на другой или на несколько иностранных языков;

научные, научно-технические и технические переводные словари. Включают в себя специальные термины по основным отраслям науки и техники.

Несмотря на то, что существуют различные типы словарей, в их структуре можно выделить составные части, присутствующие под разными названиями практически во всех словарях. К таким элементам относятся [3]:

– введение или предисловие (Introduction или Preface);

– раздел «Как пользоваться словарем» (User’s Mannual или Guide to the Dictionary);

– ключ к системе транскрипции, применяемой в словаре (Transcription Codes или Keys to the Transcription);

– список сокращений, используемых в словаре, и их объяснения (Contractions или Contraction Codes / Keys);

– корпус словаря (Corpus или The Body of the Dictionary), то есть основной список слов, представленных их словарными статьями;

– дополнительный материал, то есть различные приложения.

Корпус словаря составляют словарные статьи. Ступиным Л. П. в англо-русских переводных словарях выделены следующие части словарной статьи: entry word / catch word / head word — заглавное слово; sense / meaning of the word — значение слова; definition — толкование, определение; verbal illustration / quotation — цитата, иллюстрация; reference — отсылка; label — метка; status label — метка о временной или территориальной ограниченности употребления слова; regional label — метка о территориальной употреби-тельности слова; functional label — метка о принадлежности слова к части речи; subject label — метка о принадлежности слова к определенной области знаний [3].

При разработке словаря для корпуса тувинского языка взята за основу структура словарной статьи Ступина Л. П. Словарная статья в корпусе тувинского языка имеет следующую структуру:

– заглавное слово;

– перевод (на русский язык, на английский язык и на другие языки);

– транскрипция;

– звучание заглавного слова;

– метка о морфологических признаках (часть речи, число, падеж, склонение, спряжение);

– значение слова;

– этимологическая справка;

– метка о принадлежности к аббревиатурам;

– метка о наличии синонима, омонима и антонима;

– дополнительная информация о слове.

База данных корпусного словаря включает следующие таблицы: main — основная таблица с заголовочным словом; rus, eng, ger — таблицы с переводом заголовочного слова на различные языки; morphology — таблица с морфологическими данными. Структура этих таблиц представлена на рис.1–4. База данных реализована в MicrosoftOfficeAccess. Для работы с корпусным словарем реализованы следующие функции: добавление новой статьи (рис. 5); редактирование статьи (рис. 6); удаление статьи (рис. 7); поиск словарной статьи с транскрипцией (рис. 8); формирование и визуализация морфологических признаков заглавного слова (рис. 9).

Рис. 1. Структура таблицы main

Рис. 2. Структура таблицы rus

Рис. 3. Структура таблицы eng

Рис. 4. Структура таблицы morphology

Рис. 5. Интерфейс для добавления новой словарной статьи

Рис. 6. Интерфейс для редактирования статьи

Рис. 7. Интерфейс для удаления статьи

Рис. 8. Поиск словарной статьи с транскрипцией

Рис. 9. Морфологические признаки заглавного слова

Представленная выше структура словарной статьи и ее реализация в MicrosoftOfficeAccess позволяет рассматривать корпусный словарь как мультиструктурную организацию со сложным иерархическим строением, важнейшим корневым компонентом которого является словарная статья. Словарная статья является единицей корпусного словаря, которую можно формировать в различных аспектах и использовать для различных назначений: изучение тувинского языка с точки зрения написания, произношения, толкование, перевода на другие языки; формирование морфологической, синтаксической и семантической разметки текстов, входящих в корпус; играть роль тезауруса при анализе текстов; для организации поиска в корпусе.

В дальнейшем предполагается выполнение работ по формированию корпусного двуязычного словаря (тувинско-русского и русско-тувинского) с заполнением основных полей словарных статей преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов.

Литература:

  1. Бавуу-Сюрюн М. В. Тувинский язык на современном этапе [электронный ресурс]. Режим доступа: http://www.tuva.asia/journal/issue_7/2158-bavyy-suyruyn-mv.html
  2. Салчак А. Я., Байыр-оол А. В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образование, 2013. № 6. С. 408-409.
  3. Ссорина М. С. Словарь как мультиструктурная организация // Ярославский педагогический вестник — 2011 — № 1. - Том 1 (Гуманитарные науки).
Основные термины (генерируются автоматически): словарь, заглавное слово, тувинский язык, корпус, корпусной словарь, структура таблицы, язык, корпусный словарь, метка, часть речи.


Ключевые слова

электронный словарь, электронный словарь, корпус языка, корпусный словарь, модели данных для словарей

Похожие статьи

К вопросу о пользовании корпусной базой в процессе перевода

Когда журналист обращается к словарю, то не находит подходящего значения. То же самое происходит, когда он решает поискать примеры с данным словом в корпусной базе.

Актуальные значения слова «баба» для современных носителей...

В ходе анализа Национального корпуса русского языка было выявлено, что лишь 19 значений и 8 фразеологических единиц встречаются в современной речи (см. табл. 1). Таблица 1.

Интересен тот факт, что значение «свекровь», зафиксированное в Словаре архангельских...

Формирование контекста для исследования корпуса тувинского...

В корпус также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка...

Разработка алгоритмов для построения частотных словарей

Частотный словарь — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости.

Хеш-таблицаструктура данных, реализующая интерфейс ассоциативного массива.

Значения предлога «на» в предложном падеже и их персидские...

В русском языке предлог — «это служебная часть речи, используемая

Ожегов С. И., Шведева Н. Ю., Толковый словарь русского языка- 4-изд. дополн.-М.: Азбуковник, 2001. Пантелеева Татьяна Александровна,Семантико-грамматическая структура предлога НА1, оформляющего...

О категории числа имени существительного в диалектах...

В отношении других частей речи категория числа выступает как согласовательная.

[1; 3; 4]. Это обусловлено главным фонетическим принципом (в основе) строения слова

5. Терешкин Н. И. Словарь восточно-хантыйских диалектов. Л.: Наука, 1981. 542 с.

Иноязычная компьютерная терминология в русской и китайской...

Материалом для исследования послужили словари иноязычных неологизмов: «1000 новых иностранных слов» Л. П. Крысина [1], «Словарь

В полукальке первая часть слова (видео) перенесена в русский язык без изменения, а вторая часть (карта) калькирована, т. к. является...

Лексические пласты английского языка | Статья в журнале...

Варваризмы входят в словарный состав английского языка, в отличии от других иностранных слов, которые невозможно найти в словарях.

лексика, пласты, архаизмы, устаревшие слова, разговорная речь, современный язык, сокращение, словообразование.

Похожие статьи

К вопросу о пользовании корпусной базой в процессе перевода

Когда журналист обращается к словарю, то не находит подходящего значения. То же самое происходит, когда он решает поискать примеры с данным словом в корпусной базе.

Актуальные значения слова «баба» для современных носителей...

В ходе анализа Национального корпуса русского языка было выявлено, что лишь 19 значений и 8 фразеологических единиц встречаются в современной речи (см. табл. 1). Таблица 1.

Интересен тот факт, что значение «свекровь», зафиксированное в Словаре архангельских...

Формирование контекста для исследования корпуса тувинского...

В корпус также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка...

Разработка алгоритмов для построения частотных словарей

Частотный словарь — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости.

Хеш-таблицаструктура данных, реализующая интерфейс ассоциативного массива.

Значения предлога «на» в предложном падеже и их персидские...

В русском языке предлог — «это служебная часть речи, используемая

Ожегов С. И., Шведева Н. Ю., Толковый словарь русского языка- 4-изд. дополн.-М.: Азбуковник, 2001. Пантелеева Татьяна Александровна,Семантико-грамматическая структура предлога НА1, оформляющего...

О категории числа имени существительного в диалектах...

В отношении других частей речи категория числа выступает как согласовательная.

[1; 3; 4]. Это обусловлено главным фонетическим принципом (в основе) строения слова

5. Терешкин Н. И. Словарь восточно-хантыйских диалектов. Л.: Наука, 1981. 542 с.

Иноязычная компьютерная терминология в русской и китайской...

Материалом для исследования послужили словари иноязычных неологизмов: «1000 новых иностранных слов» Л. П. Крысина [1], «Словарь

В полукальке первая часть слова (видео) перенесена в русский язык без изменения, а вторая часть (карта) калькирована, т. к. является...

Лексические пласты английского языка | Статья в журнале...

Варваризмы входят в словарный состав английского языка, в отличии от других иностранных слов, которые невозможно найти в словарях.

лексика, пласты, архаизмы, устаревшие слова, разговорная речь, современный язык, сокращение, словообразование.

Задать вопрос