Библиографическое описание:

Лазарева О. Ю., Боломутова М. С. Методы выделения ключевых слов в контексте электронных обучающих систем // Молодой ученый. — 2016. — №26.

Препринт статьи



В работе рассматриваются методы выделения ключевых слов из текстовых документов. Выделены задачи применения данных методов в электронных обучающих системах.

Ключевые слова: анализ текста, ключевые слова, выделение ключевых слов, дидактические единицы, электронное обучение

Стремительно развивающиеся информационные технологии не обошли стороной печатные издания. В настоящее время издатели стараются выпускать свою продукцию в двух версиях — печатной и электронной. Электронные версии изданий сочетают в себе различные формы визуальной и текстовой информации, кроме того, для расширения читательской аудитории используются интерактивные элементы для того, чтобы читатель мог взаимодействовать с электронным изданием.

С развитием информационных технологий появились также электронные обучающие издания, представляющие собой самостоятельные учебные издания, содержащие текстовую, графическую, аудио и видеоинформацию, а также средства контроля знаний учащихся. Они всё чаще находят применение в вузах. Электронные обучающие издания могут использоваться как для организации самостоятельной работы учащихся, так и непосредственно в учебном процессе, зачастую оказываясь полезными при проведении практических и лабораторных работ, тестирований и т. д. [5]

Среди электронных обучающих изданий можно выделить интеллектуальные обучающие системы, возможности которых во многом превышают возможности как простых печатных и электронных учебников, так и обычных систем управления обучением.

В связи с ежегодным увеличением объемов информации, возникает проблема анализа текстов и систематизации результатов анализа текстовой информации. Для интеллектуальных систем электронного обучения актуальна задача использования анализа текстов, который позволит выявлять ключевые понятия и глубину рассмотрения этих понятий в лекциях. Вышеуказанную проблему призван решить анализ текста, в частности методология выделения ключевых слов.

Интеллектуальный анализ текста — это процесс применения автоматических методов для анализа и структурирования текстовых данных с целью создания полезного знания из ранее неструктурированной информации [1–3].

Смысл любого текстового документа может быть описан при помощи набора определенных слов, которые непосредственно содержались в текстовом документе. Как правило, к любому тексту можно представить набор ключевых слов, соответствующих смыслу текста. Под понятием ключевое слово подразумевается особо важные, емкие лексические единицы, набор которых дает читателю общее представление о содержании текста. У ключевого слова есть ряд определенных характерных признаков. Ключевое слово имеет высокую частоту употребления в рамках одного текста. Ключевое слово может объединить, «свернуть» основное содержание целого текста.

Процесс выделения ключевых слов можно условно разделить на три типовых последовательных этапа. Первый этап заключает в себе обработку, форматирование текстового документа и приведение его к формату, пригодному в дальнейшем для обработки и распознавания. На этапе подготовки текста к дальнейшему распознаванию производится лексический анализ, морфологический анализ. Лексический анализ разбивает текстовый массив на отдельные лексемы: основные и служебные, производится удаление стоп-слов. Стоп-слова — это слова, которые не несут никакой смысловой нагрузки (артикли, предлоги, союзы, частицы, местоимения, вводные слова, междометия и т. д.) [9]. Морфологический анализ ищет лексемы, представляющие собой разные формы выражения одних сущностей. Например, слова, которые различаются только падежными окончаниями, или просто являются синонимами. Второй этап — это непосредственное выделение ключевых слов. На втором этапе проводится сравнение слов, которые могли бы быть емкими лексическими единицами, с эталонным списком ключевых слов. Третий этап занимается упорядочиванием списка полученных ключевых слов, возможна некоторая визуализация этого списка, а также усечение и ранжирование.

На данный момент существует множество различных методов разбиения текста для поиска ключевых слов в нем, но почти все эти методы используют подход классификации всех слова текстового документа на две группы: ключевые слова и все остальные слова. Методы выделения ключевых слов в тексте разделяются на статистические, гибридные и нейросетевые. Рассмотрим каждый метод более подробно.

Наиболее простым методов среди перечисленных является метод извлечения ключевых слов на основе статистики. То есть составление выборки ключевых слов строится на основе ранжирования всех слов текстового документа по частоте их встречаемости, а затем происходит выбор самых частотных слов. Данный метод получил широкое распространение благодаря своей простоте реализации, так как единственным параметром для определения слова к множеству ключевых слов является частота употребления слова. Но частота употребления слова в тексте не всегда может быть однозначным параметром, так как признак частотности ключевого слова не является превалирующим. Статистический метод хорошо применяется в языках с не очень обширной морфологией, и каждое слово может быть однозначно определено, а значит и имеет высокую частотность. К примеру, таким языком является английский язык. Статистический метод может рассматривать частоту употребления слова в рамках только одного текстового документа, а есть возможность анализировать частоту словоупотребления в документе на основе совокупности других документов. Для совокупности собрания документов вводится понятие — корпуса. При расчете частоты встречаемости слова к значению частоты встречаемости в конкретном документе добавляется значение частоты его встречаемости в других документах.

Гибридный метод использует статистические методики извлечения ключевых слов в совокупности с некоторыми морфологическим, синтаксическим, и семантическим анализами. В гибридных методах используется теория графов. Выборку ключевых слов производят на основе построения графа. В качестве вершин графа выступают предполагаемые ключевые слова, порядок соединения вершин графа дугами базируется на том, как близко предполагаемое ключевое слов находится к вершине графа. Графовая методика позволяет ввести меру близости на множестве текстовых данных. Мера близости — это алгоритмический способ (функция или соответствие), который позволяет оценить подобие любых двух документов при помощи числа или набора чисел. Выделение ключевых слов происходит путем обхода построенного взвешенного графа алгоритмами, которые положены в основу теории графов.

Нейросетевые методы начали применяться сравнительно недавно и используют технологии искусственных нейронных сетей и их возможность выделения и обобщения скрытых зависимостей применительно к входным и выходным данным. Нейросетевые методы можно выделять как отдельный класс методов среди выделения ключевых слов, а можно отнести к классу гибридных методов. В контексте нейросетевых технологий процесс выделения ключевых слов рассматривается как процесс классификации.

Данный метод использует корпуса документов с размеченными ключевыми словами, некий словарь базовых ключевых слов. Помеченные ключевые слова считаются положительным примером, остальные слова — отрицательным примером. Далее высчитывается релевантность каждого слова тренировочного текста путем сопоставления ему вектора значений различных параметров, например, длины слова, части речи. Фиксируются отличие значений векторов этих параметров для ключевых слов и не ключевых. Далее вычисляется вероятность отнесения каждого слова к группе ключевых и задается ее порог, т. е. модель обучается. Извлечение ключевых слов из нового документа происходит путем вычисления релевантности слов и их вероятности отнесения к ключевым в соответствии с построенной моделью.

В системах электронного обучения выделение ключевых слов в лекциях может помочь в определении дидактических единиц — логически самостоятельных частей учебного материала, по своему объему и структуре соответствующую таким компонентам содержания как понятие, теория, закон [4, 7]. В электронной обучающей системе дидактические единицы могут использоваться для построения когнитивных карт учебного курса [6], определяющих взаимосвязи между дидактическими единицами. Использование когнитивных карт в обучающей системе позволяет решать многие задачи, в том числе позволяет повысить точность оценки результатов учебных достижений учащихся [8, 10].

Литература:

1. Астраханцев Н. А. Автоматическое извлечение терминов из коллекции текстов предметной области с помощью Википедии // Труды Института системного программирования РАН. — 2014. — Т. 26. — № 4. — С. 7–20.

  1. Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов // Труды Института системного программирования РАН. — 2009. — Т. 16. — С. 155–165.
  2. Захаров В. П., Хохлова М. В. Автоматическое выявление терминологических словосочетаний // Структурная и прикладная лингвистика. — 2014. — № 10. — С. 182–200.
  3. Лазарева О. Ю. Архитектура интеллектуальной̆ обучающей̆ системы для оценки компетенций учащихся вузов // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. — М.: МГУП, 2014. — № 5. — С. 55–64.
  4. Лазарева О. Ю. Интеллектуальные обучающие системы как один из видов электронных обучающих изданий / Университетская книга: традиции и современность: материалы научно-практической конференции. — Ростов-на-Дону: Издательство Южного федерального университета, 2015. — С. 93–96.
  5. Лазарева О. Ю. Когнитивная карта предметной области в интеллектуальной обучающей системе / Научно-образовательная информационная среда XXI века: материалы VIII Международной науч.-практ. конф. (15–18 сентября 2014 года). — Петрозаводск, 2014. — С.134–137.
  6. Попов Д. И., Лазарева О. Ю. Нечеткая оверлейная модель учащегося в интеллектуальной̆ обучающей̆ системе // Научный̆ вестник Московского государственного технического университета гражданской̆ авиации. — М.: МГТУ ГА, 2015. — № 213 (3). — С. 141–148.
  7. Попов Д. И., Лазарева О. Ю. Модель проверки знаний обучающихся на основе когнитивной карты учебного курса // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. — М.: МГУП, 2015. — № 3. — С.88–94.
  8. Шереметьева С. О., Осминин П. Г. Методы и модели автоматического извлечения ключевых слов // Вестник Южно-Уральского государственного университета. Серия: Лингвистика. — 2015. — T. 12. — № 1. — С.77–81.
  9. Popov D. I., Lazareva O. Y. A Knowledge Testing Production Model Based on a Cognitive Map for SWI-Prolog Applications // International Journal of Emerging Technologies in Learning. — 2015. — Vol. 10. — № 6. — P. 62–65.

Обсуждение

Социальные комментарии Cackle