Методы выделения ключевых слов в контексте электронных обучающих систем | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №26 (130) декабрь 2016 г.

Дата публикации: 30.11.2016

Статья просмотрена: 2900 раз

Библиографическое описание:

Лазарева, О. Ю. Методы выделения ключевых слов в контексте электронных обучающих систем / О. Ю. Лазарева, М. С. Боломутова. — Текст : непосредственный // Молодой ученый. — 2016. — № 26 (130). — С. 143-146. — URL: https://moluch.ru/archive/130/35952/ (дата обращения: 16.11.2024).



В работе рассматриваются методы выделения ключевых слов из текстовых документов. Выделены задачи применения данных методов в электронных обучающих системах.

Ключевые слова: анализ текста, ключевые слова, выделение ключевых слов, дидактические единицы, электронное обучение

Стремительно развивающиеся информационные технологии не обошли стороной печатные издания. В настоящее время издатели стараются выпускать свою продукцию в двух версиях — печатной и электронной. Электронные версии изданий сочетают в себе различные формы визуальной и текстовой информации, кроме того, для расширения читательской аудитории используются интерактивные элементы для того, чтобы читатель мог взаимодействовать с электронным изданием.

С развитием информационных технологий появились также электронные обучающие издания, представляющие собой самостоятельные учебные издания, содержащие текстовую, графическую, аудио и видеоинформацию, а также средства контроля знаний учащихся. Они всё чаще находят применение в вузах. Электронные обучающие издания могут использоваться как для организации самостоятельной работы учащихся, так и непосредственно в учебном процессе, зачастую оказываясь полезными при проведении практических и лабораторных работ, тестирований и т. д. [5]

Среди электронных обучающих изданий можно выделить интеллектуальные обучающие системы, возможности которых во многом превышают возможности как простых печатных и электронных учебников, так и обычных систем управления обучением.

В связи с ежегодным увеличением объемов информации, возникает проблема анализа текстов и систематизации результатов анализа текстовой информации. Для интеллектуальных систем электронного обучения актуальна задача использования анализа текстов, который позволит выявлять ключевые понятия и глубину рассмотрения этих понятий в лекциях. Вышеуказанную проблему призван решить анализ текста, в частности методология выделения ключевых слов.

Интеллектуальный анализ текста — это процесс применения автоматических методов для анализа и структурирования текстовых данных с целью создания полезного знания из ранее неструктурированной информации [1–3].

Смысл любого текстового документа может быть описан при помощи набора определенных слов, которые непосредственно содержались в текстовом документе. Как правило, к любому тексту можно представить набор ключевых слов, соответствующих смыслу текста. Под понятием ключевое слово подразумевается особо важные, емкие лексические единицы, набор которых дает читателю общее представление о содержании текста. У ключевого слова есть ряд определенных характерных признаков. Ключевое слово имеет высокую частоту употребления в рамках одного текста. Ключевое слово может объединить, «свернуть» основное содержание целого текста.

Процесс выделения ключевых слов можно условно разделить на три типовых последовательных этапа. Первый этап заключает в себе обработку, форматирование текстового документа и приведение его к формату, пригодному в дальнейшем для обработки и распознавания. На этапе подготовки текста к дальнейшему распознаванию производится лексический анализ, морфологический анализ. Лексический анализ разбивает текстовый массив на отдельные лексемы: основные и служебные, производится удаление стоп-слов. Стоп-слова — это слова, которые не несут никакой смысловой нагрузки (артикли, предлоги, союзы, частицы, местоимения, вводные слова, междометия и т. д.) [9]. Морфологический анализ ищет лексемы, представляющие собой разные формы выражения одних сущностей. Например, слова, которые различаются только падежными окончаниями, или просто являются синонимами. Второй этап — это непосредственное выделение ключевых слов. На втором этапе проводится сравнение слов, которые могли бы быть емкими лексическими единицами, с эталонным списком ключевых слов. Третий этап занимается упорядочиванием списка полученных ключевых слов, возможна некоторая визуализация этого списка, а также усечение и ранжирование.

На данный момент существует множество различных методов разбиения текста для поиска ключевых слов в нем, но почти все эти методы используют подход классификации всех слова текстового документа на две группы: ключевые слова и все остальные слова. Методы выделения ключевых слов в тексте разделяются на статистические, гибридные и нейросетевые. Рассмотрим каждый метод более подробно.

Наиболее простым методов среди перечисленных является метод извлечения ключевых слов на основе статистики. То есть составление выборки ключевых слов строится на основе ранжирования всех слов текстового документа по частоте их встречаемости, а затем происходит выбор самых частотных слов. Данный метод получил широкое распространение благодаря своей простоте реализации, так как единственным параметром для определения слова к множеству ключевых слов является частота употребления слова. Но частота употребления слова в тексте не всегда может быть однозначным параметром, так как признак частотности ключевого слова не является превалирующим. Статистический метод хорошо применяется в языках с не очень обширной морфологией, и каждое слово может быть однозначно определено, а значит и имеет высокую частотность. К примеру, таким языком является английский язык. Статистический метод может рассматривать частоту употребления слова в рамках только одного текстового документа, а есть возможность анализировать частоту словоупотребления в документе на основе совокупности других документов. Для совокупности собрания документов вводится понятие — корпуса. При расчете частоты встречаемости слова к значению частоты встречаемости в конкретном документе добавляется значение частоты его встречаемости в других документах.

Гибридный метод использует статистические методики извлечения ключевых слов в совокупности с некоторыми морфологическим, синтаксическим, и семантическим анализами. В гибридных методах используется теория графов. Выборку ключевых слов производят на основе построения графа. В качестве вершин графа выступают предполагаемые ключевые слова, порядок соединения вершин графа дугами базируется на том, как близко предполагаемое ключевое слов находится к вершине графа. Графовая методика позволяет ввести меру близости на множестве текстовых данных. Мера близости — это алгоритмический способ (функция или соответствие), который позволяет оценить подобие любых двух документов при помощи числа или набора чисел. Выделение ключевых слов происходит путем обхода построенного взвешенного графа алгоритмами, которые положены в основу теории графов.

Нейросетевые методы начали применяться сравнительно недавно и используют технологии искусственных нейронных сетей и их возможность выделения и обобщения скрытых зависимостей применительно к входным и выходным данным. Нейросетевые методы можно выделять как отдельный класс методов среди выделения ключевых слов, а можно отнести к классу гибридных методов. В контексте нейросетевых технологий процесс выделения ключевых слов рассматривается как процесс классификации.

Данный метод использует корпуса документов с размеченными ключевыми словами, некий словарь базовых ключевых слов. Помеченные ключевые слова считаются положительным примером, остальные слова — отрицательным примером. Далее высчитывается релевантность каждого слова тренировочного текста путем сопоставления ему вектора значений различных параметров, например, длины слова, части речи. Фиксируются отличие значений векторов этих параметров для ключевых слов и не ключевых. Далее вычисляется вероятность отнесения каждого слова к группе ключевых и задается ее порог, т. е. модель обучается. Извлечение ключевых слов из нового документа происходит путем вычисления релевантности слов и их вероятности отнесения к ключевым в соответствии с построенной моделью.

В системах электронного обучения выделение ключевых слов в лекциях может помочь в определении дидактических единиц — логически самостоятельных частей учебного материала, по своему объему и структуре соответствующую таким компонентам содержания как понятие, теория, закон [4, 7]. В электронной обучающей системе дидактические единицы могут использоваться для построения когнитивных карт учебного курса [6], определяющих взаимосвязи между дидактическими единицами. Использование когнитивных карт в обучающей системе позволяет решать многие задачи, в том числе позволяет повысить точность оценки результатов учебных достижений учащихся [8, 10].

Литература:

1. Астраханцев Н. А. Автоматическое извлечение терминов из коллекции текстов предметной области с помощью Википедии // Труды Института системного программирования РАН. — 2014. — Т. 26. — № 4. — С. 7–20.

  1. Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов // Труды Института системного программирования РАН. — 2009. — Т. 16. — С. 155–165.
  2. Захаров В. П., Хохлова М. В. Автоматическое выявление терминологических словосочетаний // Структурная и прикладная лингвистика. — 2014. — № 10. — С. 182–200.
  3. Лазарева О. Ю. Архитектура интеллектуальной̆ обучающей̆ системы для оценки компетенций учащихся вузов // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. — М.: МГУП, 2014. — № 5. — С. 55–64.
  4. Лазарева О. Ю. Интеллектуальные обучающие системы как один из видов электронных обучающих изданий / Университетская книга: традиции и современность: материалы научно-практической конференции. — Ростов-на-Дону: Издательство Южного федерального университета, 2015. — С. 93–96.
  5. Лазарева О. Ю. Когнитивная карта предметной области в интеллектуальной обучающей системе / Научно-образовательная информационная среда XXI века: материалы VIII Международной науч.-практ. конф. (15–18 сентября 2014 года). — Петрозаводск, 2014. — С.134–137.
  6. Попов Д. И., Лазарева О. Ю. Нечеткая оверлейная модель учащегося в интеллектуальной̆ обучающей̆ системе // Научный̆ вестник Московского государственного технического университета гражданской̆ авиации. — М.: МГТУ ГА, 2015. — № 213 (3). — С. 141–148.
  7. Попов Д. И., Лазарева О. Ю. Модель проверки знаний обучающихся на основе когнитивной карты учебного курса // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. — М.: МГУП, 2015. — № 3. — С.88–94.
  8. Шереметьева С. О., Осминин П. Г. Методы и модели автоматического извлечения ключевых слов // Вестник Южно-Уральского государственного университета. Серия: Лингвистика. — 2015. — T. 12. — № 1. — С.77–81.
  9. Popov D. I., Lazareva O. Y. A Knowledge Testing Production Model Based on a Cognitive Map for SWI-Prolog Applications // International Journal of Emerging Technologies in Learning. — 2015. — Vol. 10. — № 6. — P. 62–65.
Основные термины (генерируются автоматически): слово, текстовой документ, ключевое слово, частота употребления слова, электронное обучение, анализ текста, лексический анализ, морфологический анализ, статистический метод, текстовая информация.


Ключевые слова

электронное обучение, ключевые слова, анализ текста, выделение ключевых слов, дидактические единицы

Похожие статьи

Использование метода проектов на уроках английского языка в современной школе

В статье автор исследует аспекты использования метода проектов на уроках английского языка.

Метапредметные связи английского языка и математики на примере текстовых задач

В статье подчеркнута важность метапредметных связей в обучении. Автор рассматривает связь английского языка и математики на примере текстовых задач на английском языке.

Использование информационных технологий в обучении иностранным языкам

В данной статье рассматриваются особенности развития информационных технологий в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния технологий и различных методик на развитие лингвистики.

Дидактические аспекты использования интернет-ресурсов при изучении иностранных языков

В данной статье рассматриваются особенности развития интернет-технологий в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния методик и различных факторов на развитие лингвистики и образования.

Применение систем компьютерной алгебры для визуализации математических объектов и их преобразований на уроках математики

В статье авторы рассматривают возможность применения современных средств динамической визуализации на уроках математики при когнитивно-визуальном подходе к обучению. Описывается опыт применения когнитивно-визуального подхода при изучении математики в...

Аспекты использования различных методов распознавания лиц в современных системах безопасности

В статье авторы стараются обозреть существующие аспекты использования различных методов распознавания лиц в современных системах безопасности.

«Умные» технологии запоминания слов на уроках английского языка

В данной статье рассмотрены и проанализированы особенности современных технологий для заучивания английской лексики, предложены нетрадиционные способы запоминания слов в методике иностранного языка.

Использование технологии критического мышления в процессе обучения младших школьников написанию сочинения

В статье рассматриваются некоторые методические механизмы и возможности использования технологии критического мышления в процессе обучении младших школьников написанию сочинения.

Использование мобильных приложений для повышения эффективности обучения информационным технологиям

В статье проводится анализ возможностей самостоятельного обучения информационным технологиям при использовании специализированных мобильных приложений.

Векторизация слов для нечеткого поиска в вопросно-ответных системах

В статье автор исследует применение векторизации слов для нечеткого поиска в вопросно-ответных системах, путем улучшения точности через современные подходы к векторизации слов и поиск семантически близких слов.

Похожие статьи

Использование метода проектов на уроках английского языка в современной школе

В статье автор исследует аспекты использования метода проектов на уроках английского языка.

Метапредметные связи английского языка и математики на примере текстовых задач

В статье подчеркнута важность метапредметных связей в обучении. Автор рассматривает связь английского языка и математики на примере текстовых задач на английском языке.

Использование информационных технологий в обучении иностранным языкам

В данной статье рассматриваются особенности развития информационных технологий в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния технологий и различных методик на развитие лингвистики.

Дидактические аспекты использования интернет-ресурсов при изучении иностранных языков

В данной статье рассматриваются особенности развития интернет-технологий в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния методик и различных факторов на развитие лингвистики и образования.

Применение систем компьютерной алгебры для визуализации математических объектов и их преобразований на уроках математики

В статье авторы рассматривают возможность применения современных средств динамической визуализации на уроках математики при когнитивно-визуальном подходе к обучению. Описывается опыт применения когнитивно-визуального подхода при изучении математики в...

Аспекты использования различных методов распознавания лиц в современных системах безопасности

В статье авторы стараются обозреть существующие аспекты использования различных методов распознавания лиц в современных системах безопасности.

«Умные» технологии запоминания слов на уроках английского языка

В данной статье рассмотрены и проанализированы особенности современных технологий для заучивания английской лексики, предложены нетрадиционные способы запоминания слов в методике иностранного языка.

Использование технологии критического мышления в процессе обучения младших школьников написанию сочинения

В статье рассматриваются некоторые методические механизмы и возможности использования технологии критического мышления в процессе обучении младших школьников написанию сочинения.

Использование мобильных приложений для повышения эффективности обучения информационным технологиям

В статье проводится анализ возможностей самостоятельного обучения информационным технологиям при использовании специализированных мобильных приложений.

Векторизация слов для нечеткого поиска в вопросно-ответных системах

В статье автор исследует применение векторизации слов для нечеткого поиска в вопросно-ответных системах, путем улучшения точности через современные подходы к векторизации слов и поиск семантически близких слов.

Задать вопрос