Метрики семантических данных | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №24 (419) июнь 2022 г.

Дата публикации: 20.06.2022

Статья просмотрена: 127 раз

Библиографическое описание:

Дементьев, А. В. Метрики семантических данных / А. В. Дементьев. — Текст : непосредственный // Молодой ученый. — 2022. — № 24 (419). — С. 48-51. — URL: https://moluch.ru/archive/419/93259/ (дата обращения: 18.11.2024).



Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показатель вложенных взаимодействий и тезаурусный подход.

Ключевые слова: тезаурус, семантическая метрика, онтология, информационная единица, предметная область.

Статистические и лингвистические подходы представляют некий фундамент в отношении процессов обнаружения лексикографических и терминоведческих понятий. Статистические подходы базируются на расчётах терминологической концентрации на основе цифровых взаимосвязей, характерных для понятия/непонятия. Дифференциация в соответствии с лексико-грамматическими стандартами и терминологическими аспектами является основанием для формирования лингвистического подхода. [3]

В ходе обнаружения терминологических единиц в тексте ключевой минус применения статистических и лингвистических подходов заключается в невозможности выявления наиболее узконаправленных понятий, относящихся к исследуемой отрасли.

Основная доля информационных компонентов предполагает наличие соотношения, отражающего ситуационное взаимодействие данных компонентов. Другими словами, оно показывает ассоциативную интеграцию. Для описанного соотношения рационально подобрать термин «релевантность информационных компонентов». [5]

Если предусмотрено исследование весомых объёмов документации, следует брать в расчёт её тематику для получения наиболее достоверного перечня понятий, относящихся к той или иной сфере. В целях реализации аналогичных операций применяются семантические механизмы, основанные на соответствующих метриках.

На сегодняшний день онтологический подход является наиболее рациональным с точки зрения обнаружения информационных компонентов в рамках одной отрасли, а также выявления профессиональных данных касаемо семантической трактовки. По данной причине формирование и применение семантических метрик на базе онтологической модели является наиболее продуктивным способом решения проблемы, связанной с обнаружением понятийного аппарата в большом документационном объёме. [4]

Формальная система онтологии конкретной отрасли.

Концепция онтологического подхода заключается в том, что исследуемая отрасль развёртывается в качестве перечня терминов, их особенностей и функций.

Язык OWL является наиболее оптимальной демонстрацией онтологии с позиции машинной корректировки, наглядности трактования конкретной отрасли.

Далее целесообразно отметить ключевые обязательства к онтологии OWL, применяемой в качестве инструменты выявления понятий:

Основная онтологическая функция заключается в полноценном отображении объектных признаков в той или иной отрасли.

Не допускается онтологического избытка.

Обязательна внешняя демонстрация онтологии.

Онтологический метод информационного хранения предусматривает её демонстрацию в следующем формате:

O = <Т, R, F>(1)

Учитывая данную модель, следует выделить онтологические компоненты:

Т — понятия прикладной сферы, описанной посредством онтологии.

R — взаимодействия между понятиями объектной отрасли, при условии, что R:

Rinc — совокупность встроенных взаимодействий, к примеру, «sameAs» и «SubClassOf».

Radd — совокупность взаимодействий, которые дают возможность расширить объектное множество посредством взаимодействия лемм взаимодействующих компонентов.

Rterm — взаимодействие представляет собой понятие, представляющее логический вид трактовки. Данный признак носит дополняющий характер, обнаруживается специалистом на основе показателя того, как объект взаимодействует с рассматриваемой отраслью.

Rlem — взаимодействие предполагает лемму, обладающую строковыми особенностями, извлекаемыми из леммирования объектного имени посредством ПО «Mystem» компании Яндекс согласно соответствующим морфологическим особенностям понятия.

Rnc — совокупность объектных взаимодействий, в том числе и особенностей информационных единиц, дающих полноценную трактовку объектному взаимодействию исследуемой отрасли.

F — совокупность интерпретирующих функций, закреплённых за понятиями или онтологическими взаимодействиями. [2]

Применение семантической метрики понятие/непонятие в рамках совокупности слов одного текстового отрывка с применением онтологии OWL предусматривает трактовку для каждого направленного слова или словосочетания уровня интеграции к понятиям исследуемой сферы.

Интеграционный уровень входных слов и словосочетаний к понятиям рассматриваемой отрасли демонстрирует показатели от нуля до единицы. Если полученный показатель находится в пределах единицы, вполне вероятно, что он обладает статусом понятия. [3]

В данном случае следует отметить два семантических показателя:

  1. Тезаурусный показатель.
  2. Показатель вложенных взаимодействий.

Тезаурусом является контролируемый понятийный аппарат, сформированный на естественном языке, отражающий взаимодействие между понятиями и выполняющий функцию информационного поиска. Каждая онтологическая единица представляет собой наиболее сложный тип тезауруса. [4]

Тезаурусный метод обнаружения понятийного аппарата предусматривает прямой поиск леммных входов и их словосочетаний, трактуемых онтологическим путём. В данном разрезе каждый онтологический класс предполагает признак наличия Леммы, выраженной в строковом формате, сформированного посредством леммирования объектного наименования не без поддержки ПО «Mystem» от компании Яндекс.

Механизм определения уровня интеграции слов и словосочетаний с понятиями исследуемой отрасли в соответствии с таурусным методом включает:

Оценку интеграционного уровня входящего словесного механизма каждому онтологическому компоненту без расчёта онтологического оценочного показателя.

Формирование опорного онтологического компонента, сопряжённого с понятием проблемной отрасли.

Онтологическое устройство предусматривает у каждого компонента признак наличия термина, обладающего логическим типом трактовки. Данный признак носит дополняющий характер и выявляются специалистов на основе сопряжённости понятия с исследуемой отраслью. Несмотря на оценку интеграционного уровня, сформированная метрика даёт возможность обнаружить понятия из текстового отрывка с помощью их сравнения с уже выявленными онтологическими компонентами и леммными взаимодействиями посредством соотношения Radd, рассчитанных онтологическим путём.

Получается, что в процессе соотнесения входных словесных единиц и объектов исследуемой сферы, интегрированных посредством соотношения Radd, понятием следует называть сочетание слов, лемма которых имеет полноценное соотношение с совокупностью лемм аналогичных онтологических компонентов.

Для применения обнаруженного понятия целесообразно использовать соотношение Radd, объектное взаимодействие которого позволяет складывать сочетания слов в натуральном формате.

Для оценки полученных результатов, происходит группировка данных по следующим критериям:

– Истинно-положительные (true positives, tp) — ожидаемые результаты.

– Ложно-положительные (false positives, fp) — ошибочные результаты в выдаче.

– Ложно-отрицательные (false negatives, fn) — ожидаемые результаты, но не попавшие в выдачу.

– Истинно-отрицательные (true negatives, tn) — результаты, которые не попали и не должны были попасть в выдачу.

Следовательно, точность (P, precision), которая указывает на то, сколько точных результатов получено в выдаче, определяется по формуле:

(2)

Однако, этого недостаточно для оценки того, все ли ожидаемые результаты попали в выдачу, поэтому используется еще одна формуала для оценки полноты выдачи (R, recall):

(3)

Кроме того, для более корректного анализа данных, получаемых по семантической метрике, рекомендуется использовать унифицированную метрику F 1, для расчета которой используется формула:

(4)

Данная метрика позволяет оценить пороговое качество семантической метрики.

С позиции рассматриваемых показателей осуществляются процессы:

Специалист в исследуемой сфере формирует соответствующую онтологию OWL.

Формируется онтологически-направленный механизм обнаружения понятийного аппарата, предполагающего указанные раннее метрики для реализации задачи выявления степени понятийности слова или словосочетания внутри большого документационного объёма.

Онтология OWL предусматривает системное построение в формате иерархии и составляет категории взаимодействия между классовыми объектами. Включает несколько иерархических ступеней для максимальной трактовки понятий исследуемой сферы, применяемой для решений установленной проблемы.

Принцип механизма обнаружения понятий заключается в выполнении следующих операций:

Вычисление статистических и лингвистических признаков полученного текстового отрывка, предусматривающего морфологическую разметку. Расчёт ведётся с помощью системного модуля.

Вычисление семантических словесных признаков, а также особенностей сочетаний слов в тексте, подверженном обработке. Расчёт основан на указанных раннее подходах и онтологии формата OWL.

Учитывая вышеизложенное, можно сделать вывод, что семантическая метрика понятия/непонятия, разработанная на базе онтологии проблемной отрасли позволяет обнаружить только те слова и словосочетания, которые являются официальными понятиями рассматриваемой сферы. Для каждого входного словесного компонента устанавливается числовой показатель, обозначающий уровень их интеграции.

Рассматриваемая метрика может применяться как автономная или как дополнение к лингвистической/статистической метрике, применяемых для обнаружения понятийного аппарата в аналитических целях.

Литература:

1. Андреев И. А., Башаев В. А., Клейн В. В. Разработка программного средства для извлечения терминологии из текста на основании морфологических признаков, определяемых программой Mystem // Интегрированные модели и мягкие вычисления в искусственном интеллекте. — М.: Физматлит, 2013. — С. 1227–1236.

2. Добров Б. В., Лукашевич Н. В., Сыромятников С. В. Формирование базы терминологических словосочетаний по текстам предметной области // Тр. 5-й Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). — СПб., 2003. — С. 201–210.

3. Усталов Д. А. Семантические сети и обработка естественного языка // Открытые системы. СУБД. 2017. № 2. C. 51–53.

4. Hryhorovych V., «Construction of Normalized Metric for Hierarchical Data Structures based on Harmonic Functions», 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT) , 2021, pp. 146–149 .

5. Lourdusamy R. and John A., «A review on metrics for ontology evaluation», 2018 2nd International Conference on Inventive Systems and Control (ICISC) , 2018, pp. 1415–1421.

Основные термины (генерируются автоматически): OWL, семантическая метрика, исследуемая отрасль, исследуемая сфера, понятийный аппарат, взаимодействие, интеграционный уровень, компонент, документационный объем, объектное взаимодействие.


Ключевые слова

тезаурус, онтология, предметная область, семантическая метрика, информационная единица

Похожие статьи

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Семантический анализ английских и русских медицинских терминов в области онкологии

Данная статья посвящена исследованию медицинской терминологии в такой специальной клинической дисциплине, как онкология. В ней анализируются структурные и лингвистические особенности перевода медицинских терминов, а также выделяются группы наиболее с...

Понятие семантической и лексической структуры слова

В статье рассматриваются семантический и лексический аспекты слова как взаимодействующие и противопоставленные друг другу лексические уровни языка.

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, ...

Создание и практическое использование статистики морфем казахского языка

При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания с...

Сравнение как объект лингвистического исследования

В данной статье реализован анализ конструкции сравнения в качестве объекта лингвистического исследования. Детально изучены различные точки зрения отечественных лингвистов на предмет исследования сравнения в художественном тексте. Также определены рол...

Лексико-семантическое поле глагола look: лексикографический аспект

В статье рассматривается лексико-семантическое поле глагола look в современном английском языке. В работе применяется лексико-центрический подход. Для выявления дефиниций исследуемых единиц используются современные лексикографические источники.

Лингвистика и формы ее взаимообусловленности

В данной статье идет речь об отборах в современных лингвистических теориях, синтаксической теории языка при анализе семантического различия.

Парадигматический аспект изучения семантики противоположности в начальной школе

Статья посвящена проблеме изучения семантики противоположности в парадигматическом аспекте на уроках русского языка и литературного чтения в начальной школе. Рассматриваются антонимы как один из типов лексико-семантической парадигмы и их функциониров...

Семантическое содержание специальной лексики по механике машин

В статье рассматривается номинативный характер специальной лексики, которая обладает всеми свойствами терминологической и нетерминологической лексики в плане как моносемантичности и полисемантичности.

Похожие статьи

Анализ существующих моделей управления семантическими данными

Статья посвящена анализу существующих моделей управления семантическими данными. В статье рассмотрены: теоретико-методологические основы моделей управления семантическими данными; выделены и проанализированы концепции основных моделей управления сема...

Семантический анализ английских и русских медицинских терминов в области онкологии

Данная статья посвящена исследованию медицинской терминологии в такой специальной клинической дисциплине, как онкология. В ней анализируются структурные и лингвистические особенности перевода медицинских терминов, а также выделяются группы наиболее с...

Понятие семантической и лексической структуры слова

В статье рассматриваются семантический и лексический аспекты слова как взаимодействующие и противопоставленные друг другу лексические уровни языка.

Семантика в задачах автоматической обработки данных

В данной статье рассматриваются методы повышения качества и эффективности решения поисково-аналитических за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, ...

Создание и практическое использование статистики морфем казахского языка

При обработке казахского языка на ЭВМ возникают множество дополнительных задач, среди которых для казахского языка как для представителя агглютинативного языка актуальна проблема с морфологией. В статье рассматривается статистический метод создания с...

Сравнение как объект лингвистического исследования

В данной статье реализован анализ конструкции сравнения в качестве объекта лингвистического исследования. Детально изучены различные точки зрения отечественных лингвистов на предмет исследования сравнения в художественном тексте. Также определены рол...

Лексико-семантическое поле глагола look: лексикографический аспект

В статье рассматривается лексико-семантическое поле глагола look в современном английском языке. В работе применяется лексико-центрический подход. Для выявления дефиниций исследуемых единиц используются современные лексикографические источники.

Лингвистика и формы ее взаимообусловленности

В данной статье идет речь об отборах в современных лингвистических теориях, синтаксической теории языка при анализе семантического различия.

Парадигматический аспект изучения семантики противоположности в начальной школе

Статья посвящена проблеме изучения семантики противоположности в парадигматическом аспекте на уроках русского языка и литературного чтения в начальной школе. Рассматриваются антонимы как один из типов лексико-семантической парадигмы и их функциониров...

Семантическое содержание специальной лексики по механике машин

В статье рассматривается номинативный характер специальной лексики, которая обладает всеми свойствами терминологической и нетерминологической лексики в плане как моносемантичности и полисемантичности.

Задать вопрос