Библиографическое описание:

Быкова В. В., Монгуш Ч. М. Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий // Молодой ученый. — 2016. — №3. — С. 1-4.



 

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий).

Ключевые слова: компьютерная лингвистика, корпус, тувинский героический эпос, контекст, анализ формальных понятий.

 

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме [3]. Национальный корпус представляет данный язык на определенном этапе его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов. Корпус включает в себя различные типы письменных и устных текстов (художественные и публицистические произведения, учебные, научные, деловые, религиозные, бытовые и диалектные тексты), представленные в данном языке, а также информацию о свойствах входящих в него текстов — разметку. Разметка — главная характеристика корпуса. Разметка отличает корпус от простых коллекций (или библиотек) текстов.

Большинство крупных языков мира уже имеет свои национальные корпуса, различающиеся по полноте и уровню научной обработки текстов. Национальный корпус русского языка создается лингвистами, специалистами по корпусной лингвистике. На сегодняшний день он включает в себя более 500 миллионов слов. Для многих языков народов Российской Федерации, в том числе для тюркских языков (шорского, башкирского, казахского, хакасского, тувинского), ведутся работы по созданию национальных корпусов.

Работа над созданием Национального корпуса тувинского языка была начата сотрудниками Научно-образовательного центра «Тюркология» и преподавателями филологического факультета Тувинского государственного университета при поддержке Российского гуманитарного фонда в 2011 г. [9]. На сегодняшний день в Национальном корпусе тувинского языка содержатся тексты тувинской художественной литературы (прозы, поэзии, драматургии, фольклора), официально-деловых документов [6-8]. В корпус также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка, морфемно-орфографический словарь тувинского языка, составленный М. В. Бавуу-Сюрюн и С. М. Далаа. В корпусе предусмотрен поиск слов и морфем в заданном тексте. Работы по расширению информационного содержания Национального корпуса и углублению уровня обработки текстов продолжаются. Особый интерес представляют исследования произведений тувинского героического эпоса, как важной составляющей этнокультурного наследия Республики Тыва [5, 8].

Всякий корпус, как информационная лингвистическая система, включает в себя информационные и программные составляющие. Создание корпуса предполагает выполнение следующих работ [3]: определение перечня хранимых текстов, оцифровка текстов, выверка и корректировка текстов, выбор типов разметки, разметка текстов (вручную или автоматически), определение и реализация поискового аппарата — множества возможных запросов к данным, разработка программных средств обеспечения доступа к корпусу.

Существенной частью поискового аппарата корпуса является метаразметка. Под метаразметкой понимается приписывание тексту атрибутов — параметров, характеризующих текст в целом. Совокупность этих параметров называют паспортом текста [5]. Паспорт произведения тувинского героического эпоса содержит следующие параметры: сведения о сказителе, библиографические сведения, жанровые и стилевые особенности текстов, а также сведения относительно тематики произведений.

Информация, отражающая метаразметку, как правило, хорошо структурирована и допускает представление ее в виде матрицы «объект-признак», называемой контекстом. В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий) для решения филологических задач, сводимых к задаче классификации по положительным и отрицательным прецедентам. В частности, можно решать следующие важные филологические задачи в корпусе тувинского героического эпоса: задачи классификации по заданным признакам, например, принадлежности определенному жанру, тематике и пространственно-временному периоду, атрибуция текста — исследование текста с целью установления сказителя или получения каких-либо сведений о сказителе и условиях создания текстового документа.

АФП — современный метод анализа данных. АФП и его методы предоставляют математический аппарат для исследования и представления иерархий данных, отражающих их объектно-признаковые зависимости [1]. В обычной жизни, используя слово «понятие», мы подразумеваем некоторое высказывание, выделяющее и обобщающее предметы некоторого класса по их общим и характерным для них признакам. На основе этой идеи АФП формализует термин «понятие», что позволяет строго описывать, с помощью решеток формальных понятий, теоретико-порядковые отношения и зависимости между объектами и признаками. Основные идеи АФП был сформулирован Рудольфом Вилле в его работе [10], а наиболее полной монографией по АФП является книга Гантера и Вилле [11]. Данный метод нашел широкое применение в различных областях машинного обучения, таких как информационный поиск, обработка документов и текстов, распознавание образов [1, 4]. Преимуществом метода АФП является наглядное и удобное для изучения представления результатов в виде решеток. С помощью АФП и методов на его основе можно выделять наборы понятий и решать задачи бинарной классификации по положительным и отрицательным прецедентам, возникающие при исследовании корпусов естественных корпусов.

Формальный контекст в терминах АФП — тройка K = (G, M, I), где G и M — непустые конечные множества, называемые соответственно множествами объектов и признаков, а I — соответствие между G и M, называемое отношением инцидентности. Для записи этого соответствия принята инфиксная форма записи: запись gImозначает, что объект gGобладает признаком mM. Соответствие Iоднозначно определяется (0, 1)-матрицей T. Для произвольных подмножеств A и B, где AG, BM, введем два отображения φ: 2G → 2Mи : 2M2Gтакие, что

φ(A) = {m M | g A(gIm)},

ψ(B) = {g G | m B(gIm)},

где 2G–всевозможные подмножества множества G, 2M — всевозможные подмножества множества M. Пусть A = φ(A) и B = ψ(B).Таким образом, A — множество признаков, которыми обладают все объекты из множества A, B– множество объектов, которые обладают всеми признаками из множества B. Пара множеств (A, B), AG, BM, таких, что A = Bи B = A, называется формальным понятием контекста K. При этом Aназывается объемом, а B содержанием формального понятия (A, B). Если контекст K = (G, M, I) представлен в виде (0,1)-матрицы T, то формальному понятию (A, B) соответствует максимальная подматрица матрицы T, заполненная единицами. Это означает, что подмножество объектов Aобладает всеми признаками из B, и наоборот, все признаки из B характерны для всех объектов из A[7].

Формальные понятия могут быть рассмотрены как бикластеры, в которых отношение сходства объектов отражается в признаковой компоненте бикластера, т. е. в содержании. Таким образом, всякий бикластер — это набор текстов и совокупность, характерных для них признаков. Метод АФП позволяет для заданного набора текстов выявлять бикластеры, связывать их в решетку, выполнять классификацию по положительным и отрицательным прецедентам.

Применительно к тувинскому героическому эпосу для решения выше перечисленных задач были определены следующие релевантные наборы признаков:

1)                род, вид, сюжет, мотив, клише, форма, герой, зачин. Этот набор ориентирован на задачи определения принадлежности к жанру, тематике;

2)                жанр, тема, ареал, годы жизни, место жительство, клише, характерные термины. Предназначен для задачи атрибуции или получения каких-либо сведений о сказителе и условиях создания текстового документ;

3)                сказитель, периоды (ранний, зрелый и поздний) творчества, сюжет, тема. Для задач, связанных с выявлением пространственно-временного периода сказителя.

Данные наборы признаков были согласованы с экспертом — профессором ТувГУ, канд. филол. наук, руководителем научно-образовательного центра «Тюркология» М. В. Бавуу-Сюрюн. Список релевантных признаков текстов героического эпоса можно расширять. С помощью выявленных наборов признаков можно составлять различные контексты K в зависимости от поставленной задачи.

В таблице 1 представлен объектно-признаковый контекст из 8 произведений тувинского фольклора.

 

Таблица 1

Объектно-признаковая таблица произведений тувинского фольклора

Название

Сказитель

Ареал

(горный / не горный)

Богатырь

(есть / нет)

Сюжет

1

Арзылаӊ-Кара аъттыг Хунан-Кара

Ооржак Ч. Ч.

горный

есть: Хунан-Кара

сватовство

2

Мөрүн-Хүлүк

Кашкак Д. С.

не горный

есть: Мөрүн-Хүлүк

сватовство

3

Өлээдей-Мерген

Хертек Ш. Ч.

горный

есть: Өлээдей-Мерген

сестра добывает брату суженую

4

Элестей ашак

Ооржак Ч. Ч

горный

есть

сестра добывает брату суженую

5

Бокту-Кириш, бора-Шээлей

Хертек С. С.

горный

есть

сестра добывает брату суженую

6

Чечен-Маанай и Тенек-Тулун

народ

не горный

нет

другой

7

Караты-хан биле Алдын-кыс

народ

горный

есть

сватовство

8

Кыс-Халыыр

народ

горный

нет

другой

 

Выполним операцию шкалирования этого контекста — переход к (0, 1)-матрице Т. Ее результат представлен в таблице 2. Имена объектов здесь заменены их порядковыми номерами, а признаки означают: s1 — сказитель Кашкак, s2 — сказитель Хертек, s3 — сказитель Ооржак, s4 — другой сказитель или народ, a1 — горный ареал, a2 — не горный ареал, g1 — богатырь, g2 — не богатырь, c1– сюжет сватовство, c2– сюжет сестра добывает брату суженую, c3 — другой сюжет. Признаки: сказитель, сюжет, зачин — номинальные, а остальные — дихотомические.

 

Таблица 2

Контекст Kпроизведений тувинского фольклора

ID

Сказитель s1

Сказитель s2

Сказитель s3

Сказитель s4

Ареал a1

Ареал a2

Герой g1

Герой g2

Сюжет c1

Сюжет c2

Сюжет с3

1

 

 

+

 

+

 

+

 

+

 

 

2

+

 

 

 

 

+

+

 

+

 

 

3

 

+

 

 

+

 

+

 

 

+

 

4

 

 

+

 

+

 

+

 

 

+

 

5

 

+

 

 

+

 

+

 

 

+

 

6

 

 

 

+

 

+

 

+

 

 

+

7

 

 

 

+

+

 

+

 

+

 

 

8

 

 

 

+

 

+

 

+

 

 

+

 

Данный контекст K произведений тувинского фольклора используется для исследования корпуса тувинского героического эпоса с целью выявление понятий (бикластеров) и связей между ними, решения задачи бинарной классификации по положительным и отрицательным примерам. Существует различные алгоритмы решения этих задач, обзор данных алгоритмов представлен в работе [4].

Таким образом, для исследования корпуса текстов тувинского героического эпоса необходимо сначала сформировать контекст в зависимости от поставленной задачи. Потом разработать алгоритмы и программы на основе АФП для решения задачи, и внедрение этих средств в корпус тувинского языка.

 

Литература:

 

  1.              Гуров, С.И. Классификация на основе АФП и бикластеризации: возможности подхода / С.И. Гуров, А.А. Онищенко // Прикладная математика и информатика: Труды факультета Вычислительной математики и кибернетики. — 2011. — Т.38. — С. 77–87.
  2.              Гуров, С. И. Упорядоченные множества и универсальная алгебра (вводный курс) / С. И. Гуров. — М.: Издат. отд. ф-та ВМиК МГУ, 2004. — 100 с.
  3.              Захаров, В. П. Корпусная лингвистика: учебно-методическое пособие/ В. П Захаров. — СПб.: БВХ-Петербург, 2005. — 48 с.
  4.              Игнатов, Д. И.О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков / Д. И. Игнатов С. О. Кузнецов // Труды 10-й национальной конференции по искусственному интеллекту с международным участием. — 2006. — Т.2. — С. 249–258.
  5.              Курбатский Г. Н. Тувинцы в своем фольклоре: историко-этнографическая аспекты тувинского фольклора/ Г. Н. Курбатский. — Кызыл: Тувинское книжное изд-во, 2001. — 464 с.
  6.              Салчак, А. Я. Электронный корпус текстов тувинского языка // Тюрко-монгольские народы Центральной Азии: язык, этническая история и фольклор.– 2012. — № 1. — С. 72—74.
  7.              Салчак, А. Я. Электронный корпус тувинского языка: состояние, проблемы / А.Я. Салчак, А.В. Байыр-оол// Мир науки, культуры, образование. –2013. — № 6. — С. 408—409.
  8.              Орус-оол, С. М. Тувинские героические сказания/ С. М. Орус-оол. —Новосибирск: «Наука», 1997. — 584 с.
  9.              Электронный корпус тувинского языка. — Режим доступа: http://www.tuvancorpus.ru.
  10.         Ganter B. Formal Concept Analyses: Mathematical Foundations. Springer / B. Ganter, R. Wille., 1999.
  11.         Wille R. Restructuring Lattes Theory: an Approach Based on Hierarchies of Concepts, In: Order Sets (I. Rival, ed.), Reidel, Dordrecht-Boston, 445 — 470, 1982.
Основные термины: тувинского героического эпоса, тувинского языка, корпуса тувинского, текстов тувинского героического, корпуса тувинского языка, признаков текстов тувинского, корпус тувинского языка, корпуса тувинского героического, исследовании корпуса тувинского, тувинского языка математический, произведений тувинского, исследования корпуса тувинского, формальных понятий, Электронный корпус тувинского, корпусе тувинского, произведений тувинского фольклора, анализ формальных понятий, набор признаков текстов, произведений тувинского героического, текстов тувинского языка

Обсуждение

Социальные комментарии Cackle