Библиографическое описание:

Быкова В. В., Монгуш Ч. М. Формирование контекста для исследования корпуса тувинского героического эпоса на основе анализа формальных понятий // Молодой ученый. — 2016. — №3. — С. 1-4.



 

В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий).

Ключевые слова: компьютерная лингвистика, корпус, тувинский героический эпос, контекст, анализ формальных понятий.

 

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме [3]. Национальный корпус представляет данный язык на определенном этапе его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов. Корпус включает в себя различные типы письменных и устных текстов (художественные и публицистические произведения, учебные, научные, деловые, религиозные, бытовые и диалектные тексты), представленные в данном языке, а также информацию о свойствах входящих в него текстов — разметку. Разметка — главная характеристика корпуса. Разметка отличает корпус от простых коллекций (или библиотек) текстов.

Большинство крупных языков мира уже имеет свои национальные корпуса, различающиеся по полноте и уровню научной обработки текстов. Национальный корпус русского языка создается лингвистами, специалистами по корпусной лингвистике. На сегодняшний день он включает в себя более 500 миллионов слов. Для многих языков народов Российской Федерации, в том числе для тюркских языков (шорского, башкирского, казахского, хакасского, тувинского), ведутся работы по созданию национальных корпусов.

Работа над созданием Национального корпуса тувинского языка была начата сотрудниками Научно-образовательного центра «Тюркология» и преподавателями филологического факультета Тувинского государственного университета при поддержке Российского гуманитарного фонда в 2011 г. [9]. На сегодняшний день в Национальном корпусе тувинского языка содержатся тексты тувинской художественной литературы (прозы, поэзии, драматургии, фольклора), официально-деловых документов [6-8]. В корпус также входят частотный словарь по художественным произведениям на тувинском языке, тувинско-русский электронный словарь «ТывЛин», словарь диалектных слов алтайского диалекта тувинского языка, морфемно-орфографический словарь тувинского языка, составленный М. В. Бавуу-Сюрюн и С. М. Далаа. В корпусе предусмотрен поиск слов и морфем в заданном тексте. Работы по расширению информационного содержания Национального корпуса и углублению уровня обработки текстов продолжаются. Особый интерес представляют исследования произведений тувинского героического эпоса, как важной составляющей этнокультурного наследия Республики Тыва [5, 8].

Всякий корпус, как информационная лингвистическая система, включает в себя информационные и программные составляющие. Создание корпуса предполагает выполнение следующих работ [3]: определение перечня хранимых текстов, оцифровка текстов, выверка и корректировка текстов, выбор типов разметки, разметка текстов (вручную или автоматически), определение и реализация поискового аппарата — множества возможных запросов к данным, разработка программных средств обеспечения доступа к корпусу.

Существенной частью поискового аппарата корпуса является метаразметка. Под метаразметкой понимается приписывание тексту атрибутов — параметров, характеризующих текст в целом. Совокупность этих параметров называют паспортом текста [5]. Паспорт произведения тувинского героического эпоса содержит следующие параметры: сведения о сказителе, библиографические сведения, жанровые и стилевые особенности текстов, а также сведения относительно тематики произведений.

Информация, отражающая метаразметку, как правило, хорошо структурирована и допускает представление ее в виде матрицы «объект-признак», называемой контекстом. В настоящей работе предлагается релевантный набор признаков текстов тувинского героического эпоса, позволяющий формировать контекст и применять в исследовании корпуса тувинского языка математический аппарат теории распознавания образов и теории решеток (в частности, анализ формальных понятий) для решения филологических задач, сводимых к задаче классификации по положительным и отрицательным прецедентам. В частности, можно решать следующие важные филологические задачи в корпусе тувинского героического эпоса: задачи классификации по заданным признакам, например, принадлежности определенному жанру, тематике и пространственно-временному периоду, атрибуция текста — исследование текста с целью установления сказителя или получения каких-либо сведений о сказителе и условиях создания текстового документа.

АФП — современный метод анализа данных. АФП и его методы предоставляют математический аппарат для исследования и представления иерархий данных, отражающих их объектно-признаковые зависимости [1]. В обычной жизни, используя слово «понятие», мы подразумеваем некоторое высказывание, выделяющее и обобщающее предметы некоторого класса по их общим и характерным для них признакам. На основе этой идеи АФП формализует термин «понятие», что позволяет строго описывать, с помощью решеток формальных понятий, теоретико-порядковые отношения и зависимости между объектами и признаками. Основные идеи АФП был сформулирован Рудольфом Вилле в его работе [10], а наиболее полной монографией по АФП является книга Гантера и Вилле [11]. Данный метод нашел широкое применение в различных областях машинного обучения, таких как информационный поиск, обработка документов и текстов, распознавание образов [1, 4]. Преимуществом метода АФП является наглядное и удобное для изучения представления результатов в виде решеток. С помощью АФП и методов на его основе можно выделять наборы понятий и решать задачи бинарной классификации по положительным и отрицательным прецедентам, возникающие при исследовании корпусов естественных корпусов.

Формальный контекст в терминах АФП — тройка K = (G, M, I), где G и M — непустые конечные множества, называемые соответственно множествами объектов и признаков, а I — соответствие между G и M, называемое отношением инцидентности. Для записи этого соответствия принята инфиксная форма записи: запись gImозначает, что объект gGобладает признаком mM. Соответствие Iоднозначно определяется (0, 1)-матрицей T. Для произвольных подмножеств A и B, где AG, BM, введем два отображения φ: 2G → 2Mи : 2M2Gтакие, что

φ(A) = {m M | g A(gIm)},

ψ(B) = {g G | m B(gIm)},

где 2G–всевозможные подмножества множества G, 2M — всевозможные подмножества множества M. Пусть A = φ(A) и B = ψ(B).Таким образом, A — множество признаков, которыми обладают все объекты из множества A, B– множество объектов, которые обладают всеми признаками из множества B. Пара множеств (A, B), AG, BM, таких, что A = Bи B = A, называется формальным понятием контекста K. При этом Aназывается объемом, а B содержанием формального понятия (A, B). Если контекст K = (G, M, I) представлен в виде (0,1)-матрицы T, то формальному понятию (A, B) соответствует максимальная подматрица матрицы T, заполненная единицами. Это означает, что подмножество объектов Aобладает всеми признаками из B, и наоборот, все признаки из B характерны для всех объектов из A[7].

Формальные понятия могут быть рассмотрены как бикластеры, в которых отношение сходства объектов отражается в признаковой компоненте бикластера, т. е. в содержании. Таким образом, всякий бикластер — это набор текстов и совокупность, характерных для них признаков. Метод АФП позволяет для заданного набора текстов выявлять бикластеры, связывать их в решетку, выполнять классификацию по положительным и отрицательным прецедентам.

Применительно к тувинскому героическому эпосу для решения выше перечисленных задач были определены следующие релевантные наборы признаков:

1)                род, вид, сюжет, мотив, клише, форма, герой, зачин. Этот набор ориентирован на задачи определения принадлежности к жанру, тематике;

2)                жанр, тема, ареал, годы жизни, место жительство, клише, характерные термины. Предназначен для задачи атрибуции или получения каких-либо сведений о сказителе и условиях создания текстового документ;

3)                сказитель, периоды (ранний, зрелый и поздний) творчества, сюжет, тема. Для задач, связанных с выявлением пространственно-временного периода сказителя.

Данные наборы признаков были согласованы с экспертом — профессором ТувГУ, канд. филол. наук, руководителем научно-образовательного центра «Тюркология» М. В. Бавуу-Сюрюн. Список релевантных признаков текстов героического эпоса можно расширять. С помощью выявленных наборов признаков можно составлять различные контексты K в зависимости от поставленной задачи.

В таблице 1 представлен объектно-признаковый контекст из 8 произведений тувинского фольклора.

 

Таблица 1

Объектно-признаковая таблица произведений тувинского фольклора

Название

Сказитель

Ареал

(горный / не горный)

Богатырь

(есть / нет)

Сюжет

1

Арзылаӊ-Кара аъттыг Хунан-Кара

Ооржак Ч. Ч.

горный

есть: Хунан-Кара

сватовство

2

Мөрүн-Хүлүк

Кашкак Д. С.

не горный

есть: Мөрүн-Хүлүк

сватовство

3

Өлээдей-Мерген

Хертек Ш. Ч.

горный

есть: Өлээдей-Мерген

сестра добывает брату суженую

4

Элестей ашак

Ооржак Ч. Ч

горный

есть

сестра добывает брату суженую

5

Бокту-Кириш, бора-Шээлей

Хертек С. С.

горный

есть

сестра добывает брату суженую

6

Чечен-Маанай и Тенек-Тулун

народ

не горный

нет

другой

7

Караты-хан биле Алдын-кыс

народ

горный

есть

сватовство

8

Кыс-Халыыр

народ

горный

нет

другой

 

Выполним операцию шкалирования этого контекста — переход к (0, 1)-матрице Т. Ее результат представлен в таблице 2. Имена объектов здесь заменены их порядковыми номерами, а признаки означают: s1 — сказитель Кашкак, s2 — сказитель Хертек, s3 — сказитель Ооржак, s4 — другой сказитель или народ, a1 — горный ареал, a2 — не горный ареал, g1 — богатырь, g2 — не богатырь, c1– сюжет сватовство, c2– сюжет сестра добывает брату суженую, c3 — другой сюжет. Признаки: сказитель, сюжет, зачин — номинальные, а остальные — дихотомические.

 

Таблица 2

Контекст Kпроизведений тувинского фольклора

ID

Сказитель s1

Сказитель s2

Сказитель s3

Сказитель s4

Ареал a1

Ареал a2

Герой g1

Герой g2

Сюжет c1

Сюжет c2

Сюжет с3

1

 

 

+

 

+

 

+

 

+

 

 

2

+

 

 

 

 

+

+

 

+

 

 

3

 

+

 

 

+

 

+

 

 

+

 

4

 

 

+

 

+

 

+

 

 

+

 

5

 

+

 

 

+

 

+

 

 

+

 

6

 

 

 

+

 

+

 

+

 

 

+

7

 

 

 

+

+

 

+

 

+

 

 

8

 

 

 

+

 

+

 

+

 

 

+

 

Данный контекст K произведений тувинского фольклора используется для исследования корпуса тувинского героического эпоса с целью выявление понятий (бикластеров) и связей между ними, решения задачи бинарной классификации по положительным и отрицательным примерам. Существует различные алгоритмы решения этих задач, обзор данных алгоритмов представлен в работе [4].

Таким образом, для исследования корпуса текстов тувинского героического эпоса необходимо сначала сформировать контекст в зависимости от поставленной задачи. Потом разработать алгоритмы и программы на основе АФП для решения задачи, и внедрение этих средств в корпус тувинского языка.

 

Литература:

 

  1.              Гуров, С.И. Классификация на основе АФП и бикластеризации: возможности подхода / С.И. Гуров, А.А. Онищенко // Прикладная математика и информатика: Труды факультета Вычислительной математики и кибернетики. — 2011. — Т.38. — С. 77–87.
  2.              Гуров, С. И. Упорядоченные множества и универсальная алгебра (вводный курс) / С. И. Гуров. — М.: Издат. отд. ф-та ВМиК МГУ, 2004. — 100 с.
  3.              Захаров, В. П. Корпусная лингвистика: учебно-методическое пособие/ В. П Захаров. — СПб.: БВХ-Петербург, 2005. — 48 с.
  4.              Игнатов, Д. И.О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков / Д. И. Игнатов С. О. Кузнецов // Труды 10-й национальной конференции по искусственному интеллекту с международным участием. — 2006. — Т.2. — С. 249–258.
  5.              Курбатский Г. Н. Тувинцы в своем фольклоре: историко-этнографическая аспекты тувинского фольклора/ Г. Н. Курбатский. — Кызыл: Тувинское книжное изд-во, 2001. — 464 с.
  6.              Салчак, А. Я. Электронный корпус текстов тувинского языка // Тюрко-монгольские народы Центральной Азии: язык, этническая история и фольклор.– 2012. — № 1. — С. 72—74.
  7.              Салчак, А. Я. Электронный корпус тувинского языка: состояние, проблемы / А.Я. Салчак, А.В. Байыр-оол// Мир науки, культуры, образование. –2013. — № 6. — С. 408—409.
  8.              Орус-оол, С. М. Тувинские героические сказания/ С. М. Орус-оол. —Новосибирск: «Наука», 1997. — 584 с.
  9.              Электронный корпус тувинского языка. — Режим доступа: http://www.tuvancorpus.ru.
  10.         Ganter B. Formal Concept Analyses: Mathematical Foundations. Springer / B. Ganter, R. Wille., 1999.
  11.         Wille R. Restructuring Lattes Theory: an Approach Based on Hierarchies of Concepts, In: Order Sets (I. Rival, ed.), Reidel, Dordrecht-Boston, 445 — 470, 1982.

Обсуждение

Социальные комментарии Cackle