Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Математика

Опубликовано в Молодой учёный №3 (107) февраль-1 2016 г.

Дата публикации: 05.02.2016

Статья просмотрена: 162 раза

Библиографическое описание:

Быкова, В. В. Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий / В. В. Быкова, Ч. М. Монгуш. — Текст : непосредственный // Молодой ученый. — 2016. — № 3 (107). — С. 1-4. — URL: https://moluch.ru/archive/107/25831/ (дата обращения: 23.04.2024).



 

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий).

Ключевые слова: компьютерная лингвистика, корпус, тувинский героический эпос, контекст, анализ формальных понятий.

 

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме [3]. Национальный корпус представляет данный язык на определенном этапе его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов. Корпус включает в себя различные типы письменных и устных текстов (художественные и публицистические произведения, учебные, научные, деловые, религиозные, бытовые и диалектные тексты), представленные в данном языке, а также информацию о свойствах входящих в него текстов — разметку. Разметка — главная характеристика корпуса. Разметка отличает корпус от простых коллекций (или библиотек) текстов.

Большинство крупных языков мира уже имеет свои национальные корпуса, различающиеся по полноте и уровню научной обработки текстов. Национальный корпус русского языка создается лингвистами, специалистами по корпусной лингвистике. На сегодняшний день он включает в себя более 500 миллионов слов. Для многих языков народов Российской Федерации, в том числе для тюркских языков (шорского, башкирского, казахского, хакасского, тувинского), ведутся работы по созданию национальных корпусов.

Работа над созданием Национального корпуса тувинского языка была начата сотрудниками Научно-образовательного центра «Тюркология» и преподавателями филологического факультета Тувинского государственного университета при поддержке Российского гуманитарного фонда в 2011 г. [9]. На сегодняшний день в Национальном корпусе тувинского языка содержатся тексты тувинской художественной литературы (прозы, поэзии, драматургии, фольклора), официально-деловых документов [6-8]. В корпус также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка, морфемно-орфографический словарь тувинского языка, составленный М. В. Бавуу-Сюрюн и С. М. Далаа. В корпусе предусмотрен поиск слов и морфем в заданном тексте. Работы по расширению информационного содержания Национального корпуса и углублению уровня обработки текстов продолжаются. Особый интерес представляют исследования произведений тувинского героического эпоса, как важной составляющей этнокультурного наследия Республики Тыва [5, 8].

Всякий корпус, как информационная лингвистическая система, включает в себя информационные и программные составляющие. Создание корпуса предполагает выполнение следующих работ [3]: определение перечня хранимых текстов, оцифровка текстов, выверка и корректировка текстов, выбор типов разметки, разметка текстов (вручную или автоматически), определение и реализация поискового аппарата — множества возможных запросов к данным, разработка программных средств обеспечения доступа к корпусу.

Существенной частью поискового аппарата корпуса является метаразметка. Под метаразметкой понимается приписывание тексту атрибутов — параметров, характеризующих текст в целом. Совокупность этих параметров называют паспортом текста [5]. Паспорт произведения тувинского героического эпоса содержит следующие параметры: сведения о сказителе, библиографические сведения, жанровые и стилевые особенности текстов, а также сведения относительно тематики произведений.

Информация, отражающая метаразметку, как правило, хорошо структурирована и допускает представление ее в виде матрицы «объект-признак», называемой контекстом. В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий) для решения филологических задач, сводимых к задаче классификации по положительным и отрицательным прецедентам. В частности, можно решать следующие важные филологические задачи в корпусе тувинского героического эпоса: задачи классификации по заданным признакам, например, принадлежности определенному жанру, тематике и пространственно-временному периоду, атрибуция текста — исследование текста с целью установления сказителя или получения каких-либо сведений о сказителе и условиях создания текстового документа.

АФП — современный метод анализа данных. АФП и его методы предоставляют математический аппарат для исследования и представления иерархий данных, отражающих их объектно-признаковые зависимости [1]. В обычной жизни, используя слово «понятие», мы подразумеваем некоторое высказывание, выделяющее и обобщающее предметы некоторого класса по их общим и характерным для них признакам. На основе этой идеи АФП формализует термин «понятие», что позволяет строго описывать, с помощью решеток формальных понятий, теоретико-порядковые отношения и зависимости между объектами и признаками. Основные идеи АФП был сформулирован Рудольфом Вилле в его работе [10], а наиболее полной монографией по АФП является книга Гантера и Вилле [11]. Данный метод нашел широкое применение в различных областях машинного обучения, таких как информационный поиск, обработка документов и текстов, распознавание образов [1, 4]. Преимуществом метода АФП является наглядное и удобное для изучения представления результатов в виде решеток. С помощью АФП и методов на его основе можно выделять наборы понятий и решать задачи бинарной классификации по положительным и отрицательным прецедентам, возникающие при исследовании корпусов естественных корпусов.

Формальный контекст в терминах АФП — тройка K = (G, M, I), где G и M — непустые конечные множества, называемые соответственно множествами объектов и признаков, а I — соответствие между G и M, называемое отношением инцидентности. Для записи этого соответствия принята инфиксная форма записи: запись gImозначает, что объект gGобладает признаком mM. Соответствие Iоднозначно определяется (0, 1)-матрицей T. Для произвольных подмножеств A и B, где AG, BM, введем два отображения φ: 2G → 2Mи : 2M2Gтакие, что

φ(A) = {m M | g A(gIm)},

ψ(B) = {g G | m B(gIm)},

где 2G–всевозможные подмножества множества G, 2M — всевозможные подмножества множества M. Пусть A = φ(A) и B = ψ(B).Таким образом, A — множество признаков, которыми обладают все объекты из множества A, B– множество объектов, которые обладают всеми признаками из множества B. Пара множеств (A, B), AG, BM, таких, что A = Bи B = A, называется формальным понятием контекста K. При этом Aназывается объемом, а B содержанием формального понятия (A, B). Если контекст K = (G, M, I) представлен в виде (0,1)-матрицы T, то формальному понятию (A, B) соответствует максимальная подматрица матрицы T, заполненная единицами. Это означает, что подмножество объектов Aобладает всеми признаками из B, и наоборот, все признаки из B характерны для всех объектов из A[7].

Формальные понятия могут быть рассмотрены как бикластеры, в которых отношение сходства объектов отражается в признаковой компоненте бикластера, т. е. в содержании. Таким образом, всякий бикластер — это набор текстов и совокупность, характерных для них признаков. Метод АФП позволяет для заданного набора текстов выявлять бикластеры, связывать их в решетку, выполнять классификацию по положительным и отрицательным прецедентам.

Применительно к тувинскому героическому эпосу для решения выше перечисленных задач были определены следующие релевантные наборы признаков:

1)                род, вид, сюжет, мотив, клише, форма, герой, зачин. Этот набор ориентирован на задачи определения принадлежности к жанру, тематике;

2)                жанр, тема, ареал, годы жизни, место жительство, клише, характерные термины. Предназначен для задачи атрибуции или получения каких-либо сведений о сказителе и условиях создания текстового документ;

3)                сказитель, периоды (ранний, зрелый и поздний) творчества, сюжет, тема. Для задач, связанных с выявлением пространственно-временного периода сказителя.

Данные наборы признаков были согласованы с экспертом — профессором ТувГУ, канд. филол. наук, руководителем научно-образовательного центра «Тюркология» М. В. Бавуу-Сюрюн. Список релевантных признаков текстов героического эпоса можно расширять. С помощью выявленных наборов признаков можно составлять различные контексты K в зависимости от поставленной задачи.

В таблице 1 представлен объектно-признаковый контекст из 8 произведений тувинского фольклора.

 

Таблица 1

Объектно-признаковая таблица произведений тувинского фольклора

Название

Сказитель

Ареал

(горный / не горный)

Богатырь

(есть / нет)

Сюжет

1

Арзылаӊ-Кара аъттыг Хунан-Кара

Ооржак Ч. Ч.

горный

есть: Хунан-Кара

сватовство

2

Мөрүн-Хүлүк

Кашкак Д. С.

не горный

есть: Мөрүн-Хүлүк

сватовство

3

Өлээдей-Мерген

Хертек Ш. Ч.

горный

есть: Өлээдей-Мерген

сестра добывает брату суженую

4

Элестей ашак

Ооржак Ч. Ч

горный

есть

сестра добывает брату суженую

5

Бокту-Кириш, бора-Шээлей

Хертек С. С.

горный

есть

сестра добывает брату суженую

6

Чечен-Маанай и Тенек-Тулун

народ

не горный

нет

другой

7

Караты-хан биле Алдын-кыс

народ

горный

есть

сватовство

8

Кыс-Халыыр

народ

горный

нет

другой

 

Выполним операцию шкалирования этого контекста — переход к (0, 1)-матрице Т. Ее результат представлен в таблице 2. Имена объектов здесь заменены их порядковыми номерами, а признаки означают: s1 — сказитель Кашкак, s2 — сказитель Хертек, s3 — сказитель Ооржак, s4 — другой сказитель или народ, a1 — горный ареал, a2 — не горный ареал, g1 — богатырь, g2 — не богатырь, c1– сюжет сватовство, c2– сюжет сестра добывает брату суженую, c3 — другой сюжет. Признаки: сказитель, сюжет, зачин — номинальные, а остальные — дихотомические.

 

Таблица 2

Контекст Kпроизведений тувинского фольклора

ID

Сказитель s1

Сказитель s2

Сказитель s3

Сказитель s4

Ареал a1

Ареал a2

Герой g1

Герой g2

Сюжет c1

Сюжет c2

Сюжет с3

1

 

 

+

 

+

 

+

 

+

 

 

2

+

 

 

 

 

+

+

 

+

 

 

3

 

+

 

 

+

 

+

 

 

+

 

4

 

 

+

 

+

 

+

 

 

+

 

5

 

+

 

 

+

 

+

 

 

+

 

6

 

 

 

+

 

+

 

+

 

 

+

7

 

 

 

+

+

 

+

 

+

 

 

8

 

 

 

+

 

+

 

+

 

 

+

 

Данный контекст K произведений тувинского фольклора используется для исследования корпуса тувинского героического эпоса с целью выявление понятий (бикластеров) и связей между ними, решения задачи бинарной классификации по положительным и отрицательным примерам. Существует различные алгоритмы решения этих задач, обзор данных алгоритмов представлен в работе [4].

Таким образом, для исследования корпуса текстов тувинского героического эпоса необходимо сначала сформировать контекст в зависимости от поставленной задачи. Потом разработать алгоритмы и программы на основе АФП для решения задачи, и внедрение этих средств в корпус тувинского языка.

 

Литература:

 

  1.              Гуров, С.И. Классификация на основе АФП и бикластеризации: возможности подхода / С.И. Гуров, А.А. Онищенко // Прикладная математика и информатика: Труды факультета Вычислительной математики и кибернетики. — 2011. — Т.38. — С. 77–87.
  2.              Гуров, С. И. Упорядоченные множества и универсальная алгебра (вводный курс) / С. И. Гуров. — М.: Издат. отд. ф-та ВМиК МГУ, 2004. — 100 с.
  3.              Захаров, В. П. Корпусная лингвистика: учебно-методическое пособие/ В. П Захаров. — СПб.: БВХ-Петербург, 2005. — 48 с.
  4.              Игнатов, Д. И.О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков / Д. И. Игнатов С. О. Кузнецов // Труды 10-й национальной конференции по искусственному интеллекту с международным участием. — 2006. — Т.2. — С. 249–258.
  5.              Курбатский Г. Н. Тувинцы в своем фольклоре: историко-этнографическая аспекты тувинского фольклора/ Г. Н. Курбатский. — Кызыл: Тувинское книжное изд-во, 2001. — 464 с.
  6.              Салчак, А. Я. Электронный корпус текстов тувинского языка // Тюрко-монгольские народы Центральной Азии: язык, этническая история и фольклор.– 2012. — № 1. — С. 72—74.
  7.              Салчак, А. Я. Электронный корпус тувинского языка: состояние, проблемы / А.Я. Салчак, А.В. Байыр-оол// Мир науки, культуры, образование. –2013. — № 6. — С. 408—409.
  8.              Орус-оол, С. М. Тувинские героические сказания/ С. М. Орус-оол. —Новосибирск: «Наука», 1997. — 584 с.
  9.              Электронный корпус тувинского языка. — Режим доступа: http://www.tuvancorpus.ru.
  10.         Ganter B. Formal Concept Analyses: Mathematical Foundations. Springer / B. Ganter, R. Wille., 1999.
  11.         Wille R. Restructuring Lattes Theory: an Approach Based on Hierarchies of Concepts, In: Order Sets (I. Rival, ed.), Reidel, Dordrecht-Boston, 445 — 470, 1982.
Основные термины (генерируются автоматически): тувинский героический эпос, тувинский язык, корпус, Национальный корпус, сказитель, контекст, признак, тувинский фольклор, работа, сюжет.


Ключевые слова

корпус, контекст, компьютерная лингвистика, тувинский героический эпос, анализ формальных понятий

Похожие статьи

Формирование и ведение словарей в корпусе тувинского языка

В работе предложены структура словарной статьи и ее реализация в MicrosoftOfficeAccess, а также функции корпусного словаря для Национального корпуса тувинского языка. Ключевые слова: корпус языка, корпусный словарь, электронный словарь, модели данных для словарей.

Искусство народных сказителей Узбекистана | Статья в журнале...

Искусство народных сказителей Узбекистана. Автор: Хамидова Мухайёхон Обидовна.

Другой известный узбекский эпос «Алпамыш»-больше героический.

Диалектальные фразеологизмы на языке народных дастанов.

Вопросы этнопсихологии в эпосе народов мира (на основе...)

Данную межсюжетную общность фольклорист М. Джураев определяет следующим образом: «Возникновению общности эпических сюжетов в фольклоре

Жирмунский М. В., Зарифов Х. Т. Узбекский народный героический эпос. — Ташкент, 1947. Мирзаев Т. Эпос и сказитель.

Сравнительное изучение тувинских и русских литературных...

О народных промыслах Тувы. Стихи в прозе. И. С. Тургенев «Русский язык». «Как хороши, как свежи были розы…»

Тувинская национальная одежда. Участие русского тувинского народов в Великой Отечественной войне.

Специфика героической тематики в чувашском фольклоре

Героический эпос в классическом виде, в каком мы привыкли его понимать, в чувашском фольклоре

Такая работа имеет практическое значение при составлении указателей сказочных сюжетов.

Как правило, от записи на бумаге страдает весь корпус текста.

Концепт «начального времени» в эпосе эвенков

Эвенкийский героический эпос нимнгакама нимнгакан — эпос архаический (догосударственной формации), эпос

Применение той или иной формулы зависит от сказителя.

— 400с. 2. Варламова Г. И. Эпические и обрядовые жанры эвенкийского фольклора.

Похожие статьи

Формирование и ведение словарей в корпусе тувинского языка

В работе предложены структура словарной статьи и ее реализация в MicrosoftOfficeAccess, а также функции корпусного словаря для Национального корпуса тувинского языка. Ключевые слова: корпус языка, корпусный словарь, электронный словарь, модели данных для словарей.

Искусство народных сказителей Узбекистана | Статья в журнале...

Искусство народных сказителей Узбекистана. Автор: Хамидова Мухайёхон Обидовна.

Другой известный узбекский эпос «Алпамыш»-больше героический.

Диалектальные фразеологизмы на языке народных дастанов.

Вопросы этнопсихологии в эпосе народов мира (на основе...)

Данную межсюжетную общность фольклорист М. Джураев определяет следующим образом: «Возникновению общности эпических сюжетов в фольклоре

Жирмунский М. В., Зарифов Х. Т. Узбекский народный героический эпос. — Ташкент, 1947. Мирзаев Т. Эпос и сказитель.

Сравнительное изучение тувинских и русских литературных...

О народных промыслах Тувы. Стихи в прозе. И. С. Тургенев «Русский язык». «Как хороши, как свежи были розы…»

Тувинская национальная одежда. Участие русского тувинского народов в Великой Отечественной войне.

Специфика героической тематики в чувашском фольклоре

Героический эпос в классическом виде, в каком мы привыкли его понимать, в чувашском фольклоре

Такая работа имеет практическое значение при составлении указателей сказочных сюжетов.

Как правило, от записи на бумаге страдает весь корпус текста.

Концепт «начального времени» в эпосе эвенков

Эвенкийский героический эпос нимнгакама нимнгакан — эпос архаический (догосударственной формации), эпос

Применение той или иной формулы зависит от сказителя.

— 400с. 2. Варламова Г. И. Эпические и обрядовые жанры эвенкийского фольклора.

Задать вопрос