Формирование и ведение словарей в корпусе тувинского языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №9 (113) май-1 2016 г.

Дата публикации: 03.05.2016

Статья просмотрена: 217 раз

Библиографическое описание:

Дагбажык, А. С. Формирование и ведение словарей в корпусе тувинского языка / А. С. Дагбажык. — Текст : непосредственный // Молодой ученый. — 2016. — № 9 (113). — С. 57-62. — URL: https://moluch.ru/archive/113/28831/ (дата обращения: 21.11.2024).



В работе предложены структура словарной статьи и ее реализация в MicrosoftOfficeAccess, а также функции корпусного словаря для Национального корпуса тувинского языка.

Ключевые слова: корпус языка, корпусный словарь, электронный словарь, модели данных для словарей.

В настоящее время активно создаются корпусы естественных языков с помощью современных информационных технологий и методов математического моделирования. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные типы письменных и устных текстов, представленных в данном языке, различные типы словарей, а также разметку — информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов [2]. Традиционно в корпусах используются следующие типы разметки: метатекстовая, морфологическая, синтаксическая, семантическая и др. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. На основании корпусов решаются многие филологические и лингвистические задачи. Для многих языков народов Российской Федерации, в том числе для тюркских языков, создаются национальные корпусы. Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов [1, 2].

Словари — важная часть корпуса. Различают несколько типов словарей. Словари в корпусах, как правило, многофункциональны. Корпусный словарь содержит всю лингвистическую информацию о каждом слове. В корпусах используются следующие основные типы словарей: диалектные, грамматические, орфографические, словообразовательные, переводные.

Диалектные (областные) словари — разновидность толковых словарей, описывающих лексику одного или группы говоров (диалектов). Диалект (от греч. dialektos — разговор, говор, наречие) — разновидность данного языка, употребляемая в качестве средства общения лицами, связанными тесной территориальной, социальной или профессиональной общностью.

Грамматические словари — это словари, которые содержат сведения о морфологических и синтаксических свойствах слова. Морфология (от др.-греч. — «форма» и «учение») — раздел грамматики, изучающий части речи, их категории и формы слов. Синтаксис (от др.-греч. — «построение, порядок, составление») — раздел лингвистики, изучающий строение словосочетаний и предложений.

Орфоэпические словари — словари, отражающие правила литературного произношения. Орфография — раздел лингвистики, изучающий правильность написания слова при письме. Орфоэпия (от др.-греч — «правильный» и греч. — «речь») — раздел фонетики, занимающийся нормами произношения, их обоснованием и установлением.

Словообразовательные словари (деривационные словари) — словари, показывающие членение слов на составляющие их морфемы, словообразовательную структуру слова, а также совокупность слов (словообразовательное гнездо) с данной морфемой — корневой или аффиксальной. Слова в словообразовательных словарях приводятся с расчленением на морфемы и с ударением.

Переводные словари — словари, содержащие сопоставление слова одного языка их переводным эквивалентам на другом языке (или на нескольких других языках, в таком случае переводной словарь является многоязычным). Переводные словари условно разделяют на две большие группы:

– общелексические переводные словари. Переводят общую лексику с одного языка на другой или на несколько иностранных языков;

научные, научно-технические и технические переводные словари. Включают в себя специальные термины по основным отраслям науки и техники.

Несмотря на то, что существуют различные типы словарей, в их структуре можно выделить составные части, присутствующие под разными названиями практически во всех словарях. К таким элементам относятся [3]:

– введение или предисловие (Introduction или Preface);

– раздел «Как пользоваться словарем» (User’s Mannual или Guide to the Dictionary);

– ключ к системе транскрипции, применяемой в словаре (Transcription Codes или Keys to the Transcription);

– список сокращений, используемых в словаре, и их объяснения (Contractions или Contraction Codes / Keys);

– корпус словаря (Corpus или The Body of the Dictionary), то есть основной список слов, представленных их словарными статьями;

– дополнительный материал, то есть различные приложения.

Корпус словаря составляют словарные статьи. Ступиным Л. П. в англо-русских переводных словарях выделены следующие части словарной статьи: entry word / catch word / head word — заглавное слово; sense / meaning of the word — значение слова; definition — толкование, определение; verbal illustration / quotation — цитата, иллюстрация; reference — отсылка; label — метка; status label — метка о временной или территориальной ограниченности употребления слова; regional label — метка о территориальной употреби-тельности слова; functional label — метка о принадлежности слова к части речи; subject label — метка о принадлежности слова к определенной области знаний [3].

При разработке словаря для корпуса тувинского языка взята за основу структура словарной статьи Ступина Л. П. Словарная статья в корпусе тувинского языка имеет следующую структуру:

– заглавное слово;

– перевод (на русский язык, на английский язык и на другие языки);

– транскрипция;

– звучание заглавного слова;

– метка о морфологических признаках (часть речи, число, падеж, склонение, спряжение);

– значение слова;

– этимологическая справка;

– метка о принадлежности к аббревиатурам;

– метка о наличии синонима, омонима и антонима;

– дополнительная информация о слове.

База данных корпусного словаря включает следующие таблицы: main — основная таблица с заголовочным словом; rus, eng, ger — таблицы с переводом заголовочного слова на различные языки; morphology — таблица с морфологическими данными. Структура этих таблиц представлена на рис.1–4. База данных реализована в MicrosoftOfficeAccess. Для работы с корпусным словарем реализованы следующие функции: добавление новой статьи (рис. 5); редактирование статьи (рис. 6); удаление статьи (рис. 7); поиск словарной статьи с транскрипцией (рис. 8); формирование и визуализация морфологических признаков заглавного слова (рис. 9).

Рис. 1. Структура таблицы main

Рис. 2. Структура таблицы rus

Рис. 3. Структура таблицы eng

Рис. 4. Структура таблицы morphology

Рис. 5. Интерфейс для добавления новой словарной статьи

Рис. 6. Интерфейс для редактирования статьи

Рис. 7. Интерфейс для удаления статьи

Рис. 8. Поиск словарной статьи с транскрипцией

Рис. 9. Морфологические признаки заглавного слова

Представленная выше структура словарной статьи и ее реализация в MicrosoftOfficeAccess позволяет рассматривать корпусный словарь как мультиструктурную организацию со сложным иерархическим строением, важнейшим корневым компонентом которого является словарная статья. Словарная статья является единицей корпусного словаря, которую можно формировать в различных аспектах и использовать для различных назначений: изучение тувинского языка с точки зрения написания, произношения, толкование, перевода на другие языки; формирование морфологической, синтаксической и семантической разметки текстов, входящих в корпус; играть роль тезауруса при анализе текстов; для организации поиска в корпусе.

В дальнейшем предполагается выполнение работ по формированию корпусного двуязычного словаря (тувинско-русского и русско-тувинского) с заполнением основных полей словарных статей преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов.

Литература:

  1. Бавуу-Сюрюн М. В. Тувинский язык на современном этапе [электронный ресурс]. Режим доступа: http://www.tuva.asia/journal/issue_7/2158-bavyy-suyruyn-mv.html
  2. Салчак А. Я., Байыр-оол А. В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образование, 2013. № 6. С. 408-409.
  3. Ссорина М. С. Словарь как мультиструктурная организация // Ярославский педагогический вестник — 2011 — № 1. - Том 1 (Гуманитарные науки).
Основные термины (генерируются автоматически): словарь, заглавное слово, тувинский язык, корпус, корпусной словарь, структура таблицы, язык, корпусный словарь, метка, часть речи.


Ключевые слова

электронный словарь, электронный словарь, корпус языка, корпусный словарь, модели данных для словарей

Похожие статьи

Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решет...

Преимущества использования данных Corpus of Contemporary American English при обучении грамматике английского языка

В статье автор анализирует функции Corpus of Contemporary American English и выделяет его основные преимущества, которые помогут преподавателям и обучающимся в изучении грамматики английского языка.

Технология подготовки библиографического списка

В работе описана технология подготовки библиографического описания с учётом правил транслитерации. Раскрываются понятия, дана характеристика терминам. Большое место занимает рассмотрение верного оформления библиографического списка. Изучение систем с...

Характеристика и особенности некоторых моделей ментального лексикона

В статье рассматриваются некоторые из моделей ментального лексикона. Представлен краткий обзор поведенческих методик, разработанных для подтверждения той или иной модели. Автор ставит целью рассмотреть способы функционирования ментального словаря на ...

Оценка валидности иноязычного лексического материала по дисциплине «Профессиональный иностранный язык»

В статье рассматривается потенциал учебного материала по дисциплине «Профессиональный иностранный язык», с точки зрения актуальности и релевантности его лексического наполнения на примере учебно-методического пособия по направлению информационные тех...

Англо-Казахский параллелный корпус для статистического машинного перевода

В этой статье представлены проблемы и решения в разработке англо-казахского параллельного корпуса в механико-математическом факультете Казахского Национального Университета им. аль-Фараби. В научно-исследовательский проект включены: построение англо-...

Возможности использования лингвистических корпусов для исследования немецких образных сравнений с компонентом Lavastrom

Настоящая статья исследует возможности применения лингвистического корпуса для исследования немецких образных сравнений с secundum «Lavastrom», а также проводится семантический анализ приведенных лексических единиц с этим компонентом.

Лингвистический словарь как способ формирования информационной грамотности в средней школе: исследовательский проект

В статье изучены аспекты использования лингвистических словарей на уроках русского языка и литературы как способа формирования информационной грамотности обучающихся в средней школе.

Создание электронного учебника по материаловедению

В статье рассмотрены вопросы создания электронного учебника по дисциплине «Материаловедение». Изложены основные принципы разработки мультимедийных учебных материалов, учитывающие специфику дисциплины. Представлены фрагменты изучаемых тем, содержащие ...

Разработка интерфейса информационной системы учебно-методического отдела университета

В статье автор рассматривает автоматизацию и проектирования интерфейса ИС учета методического обеспечения по дисциплинам, что включает в себя формирование карт методического обеспечения, списка недостающих позиций и составления плана издания для кафе...

Похожие статьи

Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решет...

Преимущества использования данных Corpus of Contemporary American English при обучении грамматике английского языка

В статье автор анализирует функции Corpus of Contemporary American English и выделяет его основные преимущества, которые помогут преподавателям и обучающимся в изучении грамматики английского языка.

Технология подготовки библиографического списка

В работе описана технология подготовки библиографического описания с учётом правил транслитерации. Раскрываются понятия, дана характеристика терминам. Большое место занимает рассмотрение верного оформления библиографического списка. Изучение систем с...

Характеристика и особенности некоторых моделей ментального лексикона

В статье рассматриваются некоторые из моделей ментального лексикона. Представлен краткий обзор поведенческих методик, разработанных для подтверждения той или иной модели. Автор ставит целью рассмотреть способы функционирования ментального словаря на ...

Оценка валидности иноязычного лексического материала по дисциплине «Профессиональный иностранный язык»

В статье рассматривается потенциал учебного материала по дисциплине «Профессиональный иностранный язык», с точки зрения актуальности и релевантности его лексического наполнения на примере учебно-методического пособия по направлению информационные тех...

Англо-Казахский параллелный корпус для статистического машинного перевода

В этой статье представлены проблемы и решения в разработке англо-казахского параллельного корпуса в механико-математическом факультете Казахского Национального Университета им. аль-Фараби. В научно-исследовательский проект включены: построение англо-...

Возможности использования лингвистических корпусов для исследования немецких образных сравнений с компонентом Lavastrom

Настоящая статья исследует возможности применения лингвистического корпуса для исследования немецких образных сравнений с secundum «Lavastrom», а также проводится семантический анализ приведенных лексических единиц с этим компонентом.

Лингвистический словарь как способ формирования информационной грамотности в средней школе: исследовательский проект

В статье изучены аспекты использования лингвистических словарей на уроках русского языка и литературы как способа формирования информационной грамотности обучающихся в средней школе.

Создание электронного учебника по материаловедению

В статье рассмотрены вопросы создания электронного учебника по дисциплине «Материаловедение». Изложены основные принципы разработки мультимедийных учебных материалов, учитывающие специфику дисциплины. Представлены фрагменты изучаемых тем, содержащие ...

Разработка интерфейса информационной системы учебно-методического отдела университета

В статье автор рассматривает автоматизацию и проектирования интерфейса ИС учета методического обеспечения по дисциплинам, что включает в себя формирование карт методического обеспечения, списка недостающих позиций и составления плана издания для кафе...

Задать вопрос