Семантика в задачах автоматической обработки данных | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №8 (88) апрель-2 2015 г.

Дата публикации: 19.04.2015

Статья просмотрена: 350 раз

Библиографическое описание:

Буралхиева, У. С. Семантика в задачах автоматической обработки данных / У. С. Буралхиева. — Текст : непосредственный // Молодой ученый. — 2015. — № 8 (88). — С. 130-132. — URL: https://moluch.ru/archive/88/17491/ (дата обращения: 20.04.2024).

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, и создания структур данных и алгоритмов информационного поиска, реализующих этот метод.

Ключевые слова: семантика, естественный язык, обработка текстов

 

Значительная часть информационных ресурсов современного общества, обращающихся в компьютерных средах, представлена естественно-языковыми текстами (ЕЯ-текстами). С когнитивной точки зрения естественный язык (ЕЯ) [4] представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения. С формальной точки зрения естественный язык представляет знаковую систему, содержащую алфавит, совокупность лингвистических единиц-слов, совокупность словарей интерпретирующих эти слова, совокупность правил употребления и интерпретации этих слов. Различие в том, что все слова в естественном языке переносят смысл и имеют информационный объем. В языке информатики есть информационные единицы — носители информации. Ввиду стремительного роста объемов такой информации все большую актуальность приобретают вопросы автоматической обработки текстов (АОТ), затрагивающие обширный спектр практических приложений, представленных задачами извлечения знаний из текстов (Text Mining), задачами автоматической классификации и кластеризации текстовых документов, автоматического индексирования и реферирования, задачами семантического поиска и множеством других задач. Информационной основой всех перечисленных задач являются задачи выявления тематически значимой (актуальной) информации, содержащейся в анализируемом тексте, и ее идентификации посредством соотнесения с тем или иным общепринятым понятием данной предметной области. Совокупность таких понятий можно рассматривать как некоторую понятийную спецификацию предметной области, наиболее универсальным представлением которой может служить некоторая онтология предметной области (ОПО). Таким образом, указанные выше задачи АОТ в той или иной мере сводятся к задаче определения тематически значимых слов и словосочетаний из ЕЯ-текстов и приведения их к одному из понятий ОПО. Это, в свою очередь, предполагает использование некоторой компьютерной технологии семантического анализа текстов.

Проблемы моделирования языковой деятельности человека и примыкающие к ним задачи семантического анализа естественно-языковых текстов с давних пор находятся в фокусе приоритетных исследований по искусственному интеллекту и компьютерной лингвистике. В числе наиболее известных и основополагающих исследований в данной проблематике следует назвать работы Т. Винограда, Р. Шенка, Ч. Филлмора, Н. Хомского. Одной из наиболее известных реализаций АОТ инструментария является семейство программных продуктов TextAnalyst, формальной основой которого является аппарат искусственных нейронных сетей [2].

Проведем сравнение естественного языка и языка информатики. При этом примем во внимание то, что основой языка информатики являются информационные конструкции, семантические информационные единицы и структурные информационные единицы. С когнитивной точки зрения естественный язык (ЕЯ) [4] представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения. С формальной точки зрения естественный язык представляет знаковую систему, содержащую алфавит, совокупность лингвистических единиц-слов, совокупность словарей интерпретирующих эти слова, совокупность правил употребления и интерпретации этих слов. Различие в том, что все слова в естественном языке переносят смысл и имеют информационный объем. В языке информатики есть информационные единицы — носители информации. Их также называют структурные информационные единицы. И есть информационные единицы, содержащие смысл, которые называют семантические информационные единицы. Как элементы сложной системы — языка, эти информационные элементы характеризуются неделимостью, связанной с критерием делимости. Структурная неделимость приводит к элементу — символ, который специального смысла не имеет. В некоторых случаях структурная неделимость в ЯИ приводит к слову. Смысловая неделимость определяет семантические информационные единицы [6] (СИЕ). Смысловая сигнификативная неделимость определяет семантическую информационную единицу слово Смысловая предикативная неделимость определяет семантическую информационную единицу предложение. Смысловая ассоциативная неделимость определяет семантическую информационную единицу фразу. Между перечисленными информационными единицами существуют отношения иерарахии. Слово есть совокупность символов. Интерпретация слова осуществляется с помощью словарей и тезаурусов. Предложение — совокупность слов, выражающих законченную мысль. Интерпретация предложения осуществляется на основе соотнесения его смысла с действительностью. Фраза совокупность предложений, выражающих законченную мысль, некоторые их которых не могут быть интерпретированы без других предложений в этой фразе. Для человека ЕЯ выполняет две главные функции: служит средством коммуникации и средством моделирования явлений окружающего мира. Язык информатики (ЯИ) имеет следующие функции: служит средством формализации описаний окружающего мира на основе информационных моделей [7], средством формального построения информационных моделей, средством моделирования явлений окружающего мира, средством коммуникации, средством запоминания информационных моделей и опыта, средством анализа, средством репрезентации информационных моделей. Можно сказать, что язык информатики является более грубым как средство описания. Однако в условиях больших информационных объемов и информационных барьеров, он позволяет решать задачи, которые человек не в состоянии решить с помощью ЕЯ. То есть доминирующей функцией в ЯИ является анализ, в первую очередь, больших информационных массивов. Моделирования явлений окружающего мира в ЕЯ осуществляется путем запоминания всего множества ситуаций, в которых оказывался человек, и организацией механизмов оперативного извлечения этой информации. ЕЯ позволяет хранить информацию в формализованном виде с помощью лексических единиц слов, что уменьшает искажения интерпретации смысла. Для реализации семантического анализа с использованием РСМ на практике используется словарь предикатных слов [9] и система автоматически формируемых правил [9]. В основе теории коммуникативной грамматики и основанной на ней РСМ лежит понятие синтаксемы – минимальной синтаксической единицы. Синтаксемам приписываются семантические значения, а сами синтаксемы связываются с другими синтаксемами семантическими отношениями [5].

Сфера прикладных решений в проблематике АОТ в настоящее время представлена достаточно обширным спектром инструментальных средств. Однако следует иметь в виду, что любая из современных реализаций инструментарии АОТ представляют собой, в большей или меньшей степени, некоторое частичное решение, и полное, универсальное решение — дело будущих разработок подобных средств, развитие которых в нескольких направлениях стимулирует творческий поиск. Основой большинства существующих практических решений являются статистические подходы. Поэтому развитие аналитического направления в исследовании языковой деятельности, базирующееся на попытках теоретического осмысления системы естественного языка с применением тех или иных математических моделей и методов, является особенно актуальным. Одной из интересных и перспективных реализаций технологии АОТ в рамках аналитического направления является компьютерная семантика В. А. Тузова.

Результаты семантического анализа, основанного на положениях компьютерной семантики В. А. Тузова, предоставляют обширный и удобный материал (“семантический полуфабрикат»), который может быть успешно использован в составлении правил ЭС, осуществляющей извлечение тематически-актуальных смыслов (знаний) из ЕЯ-текстов. Более того, этот материал является важнейшим условием, при котором возможна эффективная реализация подобной ЭС. Применение для этих целей ЭС, правила которой основаны на результатах семантического анализа, является более универсальным решением задачи извлечения тематически-актуальных смыслов из ЕЯ-текстов. В отличие от решений подобных задач, основанных на использовании множества жестко заданных семантических шаблонов, данный подход является более гибким и позволяет обеспечить более высокую смысловую точность. При этом точность семантической идентификации в любой момент может быть повышена посредством расширения базы правил экспертной системы.

 

Литература:

 

1.      Информационная семантика — Викизнание http://www.wikiznanie.ru/ru-wz/index.php.

2.      Shannon C. E. A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27, 379–423 & 623–656, July & October, 1948.

3.      Winner N. Cybernetics or Control and Communication in the Animal and the Mashine. The Technology Press and John Wiley & Soris Inc. New York — Herman et Cie, Paris, 1948. — 194 р.

4.      Заболеева-Зотова А. В. Естественный язык в автоматизированных системах. Семантический анализ текстов. — Волгоград: РПК «Политехник», 2002.

5.      Майер-Шенбергер В., Кукьер К. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. — Манн, Иванов и Фербер, 2014. — 240 c.

6.      Сигов А. С., Кошкин Д. Е., Дробнов С. Е. Кластеризация текста на основе анализа слов с применением распределенных вычислений // Информатизация образования и науки». — 2011. — № 2(10). — С. 74–80.

7.      Казенников А. О. Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики / Диссертации на соискание степени кандидата технических наук. Специальность 05.13.15. Вычислительные машины, комплексы и компьютерные сети. — М.: МИРЭА, 2014–138 с.

8.      Апресян Ю. Д. Избранные труды. Т. 1. — М.: Языки русской культуры, 1995. — 472 с.

9.      Электронный ресурс http://www.analyst.ru/.

10.  Тузов В. А. Компьютерная семантика русского языка. — СПб.: Изд-во С.-Петерб. ун-та, 2004. — 400 с.

11.  Частиков А. П., Гаврилова Т. А., Белов Д. Л. Разработка экспертных систем. Среда CLIPS. — СПб.: БХБ-Петербург, 2003. — 608 с.

Основные термины (генерируются автоматически): естественный язык, язык информатики, знаковая система, окружающий мир, семантический анализ, слово, единица, задача, предметная область, семантическая информационная единица.


Ключевые слова

семантика, естественный язык, обработка текстов

Похожие статьи

Семантический анализ текстов. Основные положения

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP) , так и компьютерной лингвистики.

Анализ методов тематического моделирования текстов на...

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки. Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Параллели между естественными языками и языками...

язык, язык программирования, естественный язык, долгое время, машинный перевод, семантический анализ, история народа, информатик, слово.

Метапредметные связи на уроках информатики

Систему и окружающую среду рассматриваем на примере системы дерево — окружающая среда.

Например: «Решение квадратных уравнений с помощью языка программирования Pascal».

Задача по программированию с продолжением на уроках информатики.

Фиксация и трансляция информации: естественный язык...

Ключевые слова: фиксация информации, трансляция информации, знаковые системы, предметное и знаковое документирование, естественный язык, искусственная знаковая система, мотивированность.

Преподавание дисциплины «история информатики» для...

Семиотические основания информатики: «знак», «знаковая система», естественные и искусственные знаковые системы; естественный язык и искусственный язык как знаковые системы, синтактика, семантика и прагматика знаковых систем (Ч. Пирс, Ф. де Соссюр, Ю. М...

Внедрение современных методов автоматизированного тезауруса...

предметная область, тезаурус, термин, исходный тезаурус, омонимия, использование тезауруса, семантический тезаурус, информационный поиск, текст, информационно-поисковая система.

Семантическая организация текста | Статья в журнале...

Семантическая деривация номинативных единиц. Семантическая универсалия «время» и способы ее репрезентации в языке. Структурно-семантическая и собственно семантическая классификация образных единиц в рассказе В.П. Астафьева «Монах в новых штанах».

Лексико-семантическое поле глагола look: лексикографический...

В статье рассматривается лексико-семантическое поле глагола look в современном английском языке. В работе применяется лексико-центрический подход. Для выявления дефиниций исследуемых единиц используются современные лексикографические источники.

Похожие статьи

Семантический анализ текстов. Основные положения

Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP) , так и компьютерной лингвистики.

Анализ методов тематического моделирования текстов на...

В работе рассматриваются различные методы тематического моделирования текстов на естественном языке, приводятся их достоинства и недостатки. Ключевые слова: тематическое моделирование, векторная модель, латентный семантический анализ...

Параллели между естественными языками и языками...

язык, язык программирования, естественный язык, долгое время, машинный перевод, семантический анализ, история народа, информатик, слово.

Метапредметные связи на уроках информатики

Систему и окружающую среду рассматриваем на примере системы дерево — окружающая среда.

Например: «Решение квадратных уравнений с помощью языка программирования Pascal».

Задача по программированию с продолжением на уроках информатики.

Фиксация и трансляция информации: естественный язык...

Ключевые слова: фиксация информации, трансляция информации, знаковые системы, предметное и знаковое документирование, естественный язык, искусственная знаковая система, мотивированность.

Преподавание дисциплины «история информатики» для...

Семиотические основания информатики: «знак», «знаковая система», естественные и искусственные знаковые системы; естественный язык и искусственный язык как знаковые системы, синтактика, семантика и прагматика знаковых систем (Ч. Пирс, Ф. де Соссюр, Ю. М...

Внедрение современных методов автоматизированного тезауруса...

предметная область, тезаурус, термин, исходный тезаурус, омонимия, использование тезауруса, семантический тезаурус, информационный поиск, текст, информационно-поисковая система.

Семантическая организация текста | Статья в журнале...

Семантическая деривация номинативных единиц. Семантическая универсалия «время» и способы ее репрезентации в языке. Структурно-семантическая и собственно семантическая классификация образных единиц в рассказе В.П. Астафьева «Монах в новых штанах».

Лексико-семантическое поле глагола look: лексикографический...

В статье рассматривается лексико-семантическое поле глагола look в современном английском языке. В работе применяется лексико-центрический подход. Для выявления дефиниций исследуемых единиц используются современные лексикографические источники.

Задать вопрос