Метрики семантических данных | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №24 (419) июнь 2022 г.

Дата публикации: 20.06.2022

Статья просмотрена: 78 раз

Библиографическое описание:

Дементьев, А. В. Метрики семантических данных / А. В. Дементьев. — Текст : непосредственный // Молодой ученый. — 2022. — № 24 (419). — С. 48-51. — URL: https://moluch.ru/archive/419/93259/ (дата обращения: 26.04.2024).



Данная статья повествует о семантической метрике извлечения перечня понятий из текстов на соответствующую тематику. Онтологический анализ представляет основу для данной метрики. Для обнаружения семантической метрики применяется два показателя — показатель вложенных взаимодействий и тезаурусный подход.

Ключевые слова: тезаурус, семантическая метрика, онтология, информационная единица, предметная область.

Статистические и лингвистические подходы представляют некий фундамент в отношении процессов обнаружения лексикографических и терминоведческих понятий. Статистические подходы базируются на расчётах терминологической концентрации на основе цифровых взаимосвязей, характерных для понятия/непонятия. Дифференциация в соответствии с лексико-грамматическими стандартами и терминологическими аспектами является основанием для формирования лингвистического подхода. [3]

В ходе обнаружения терминологических единиц в тексте ключевой минус применения статистических и лингвистических подходов заключается в невозможности выявления наиболее узконаправленных понятий, относящихся к исследуемой отрасли.

Основная доля информационных компонентов предполагает наличие соотношения, отражающего ситуационное взаимодействие данных компонентов. Другими словами, оно показывает ассоциативную интеграцию. Для описанного соотношения рационально подобрать термин «релевантность информационных компонентов». [5]

Если предусмотрено исследование весомых объёмов документации, следует брать в расчёт её тематику для получения наиболее достоверного перечня понятий, относящихся к той или иной сфере. В целях реализации аналогичных операций применяются семантические механизмы, основанные на соответствующих метриках.

На сегодняшний день онтологический подход является наиболее рациональным с точки зрения обнаружения информационных компонентов в рамках одной отрасли, а также выявления профессиональных данных касаемо семантической трактовки. По данной причине формирование и применение семантических метрик на базе онтологической модели является наиболее продуктивным способом решения проблемы, связанной с обнаружением понятийного аппарата в большом документационном объёме. [4]

Формальная система онтологии конкретной отрасли.

Концепция онтологического подхода заключается в том, что исследуемая отрасль развёртывается в качестве перечня терминов, их особенностей и функций.

Язык OWL является наиболее оптимальной демонстрацией онтологии с позиции машинной корректировки, наглядности трактования конкретной отрасли.

Далее целесообразно отметить ключевые обязательства к онтологии OWL, применяемой в качестве инструменты выявления понятий:

Основная онтологическая функция заключается в полноценном отображении объектных признаков в той или иной отрасли.

Не допускается онтологического избытка.

Обязательна внешняя демонстрация онтологии.

Онтологический метод информационного хранения предусматривает её демонстрацию в следующем формате:

O = <Т, R, F>(1)

Учитывая данную модель, следует выделить онтологические компоненты:

Т — понятия прикладной сферы, описанной посредством онтологии.

R — взаимодействия между понятиями объектной отрасли, при условии, что R:

Rinc — совокупность встроенных взаимодействий, к примеру, «sameAs» и «SubClassOf».

Radd — совокупность взаимодействий, которые дают возможность расширить объектное множество посредством взаимодействия лемм взаимодействующих компонентов.

Rterm — взаимодействие представляет собой понятие, представляющее логический вид трактовки. Данный признак носит дополняющий характер, обнаруживается специалистом на основе показателя того, как объект взаимодействует с рассматриваемой отраслью.

Rlem — взаимодействие предполагает лемму, обладающую строковыми особенностями, извлекаемыми из леммирования объектного имени посредством ПО «Mystem» компании Яндекс согласно соответствующим морфологическим особенностям понятия.

Rnc — совокупность объектных взаимодействий, в том числе и особенностей информационных единиц, дающих полноценную трактовку объектному взаимодействию исследуемой отрасли.

F — совокупность интерпретирующих функций, закреплённых за понятиями или онтологическими взаимодействиями. [2]

Применение семантической метрики понятие/непонятие в рамках совокупности слов одного текстового отрывка с применением онтологии OWL предусматривает трактовку для каждого направленного слова или словосочетания уровня интеграции к понятиям исследуемой сферы.

Интеграционный уровень входных слов и словосочетаний к понятиям рассматриваемой отрасли демонстрирует показатели от нуля до единицы. Если полученный показатель находится в пределах единицы, вполне вероятно, что он обладает статусом понятия. [3]

В данном случае следует отметить два семантических показателя:

  1. Тезаурусный показатель.
  2. Показатель вложенных взаимодействий.

Тезаурусом является контролируемый понятийный аппарат, сформированный на естественном языке, отражающий взаимодействие между понятиями и выполняющий функцию информационного поиска. Каждая онтологическая единица представляет собой наиболее сложный тип тезауруса. [4]

Тезаурусный метод обнаружения понятийного аппарата предусматривает прямой поиск леммных входов и их словосочетаний, трактуемых онтологическим путём. В данном разрезе каждый онтологический класс предполагает признак наличия Леммы, выраженной в строковом формате, сформированного посредством леммирования объектного наименования не без поддержки ПО «Mystem» от компании Яндекс.

Механизм определения уровня интеграции слов и словосочетаний с понятиями исследуемой отрасли в соответствии с таурусным методом включает:

Оценку интеграционного уровня входящего словесного механизма каждому онтологическому компоненту без расчёта онтологического оценочного показателя.

Формирование опорного онтологического компонента, сопряжённого с понятием проблемной отрасли.

Онтологическое устройство предусматривает у каждого компонента признак наличия термина, обладающего логическим типом трактовки. Данный признак носит дополняющий характер и выявляются специалистов на основе сопряжённости понятия с исследуемой отраслью. Несмотря на оценку интеграционного уровня, сформированная метрика даёт возможность обнаружить понятия из текстового отрывка с помощью их сравнения с уже выявленными онтологическими компонентами и леммными взаимодействиями посредством соотношения Radd, рассчитанных онтологическим путём.

Получается, что в процессе соотнесения входных словесных единиц и объектов исследуемой сферы, интегрированных посредством соотношения Radd, понятием следует называть сочетание слов, лемма которых имеет полноценное соотношение с совокупностью лемм аналогичных онтологических компонентов.

Для применения обнаруженного понятия целесообразно использовать соотношение Radd, объектное взаимодействие которого позволяет складывать сочетания слов в натуральном формате.

Для оценки полученных результатов, происходит группировка данных по следующим критериям:

– Истинно-положительные (true positives, tp) — ожидаемые результаты.

– Ложно-положительные (false positives, fp) — ошибочные результаты в выдаче.

– Ложно-отрицательные (false negatives, fn) — ожидаемые результаты, но не попавшие в выдачу.

– Истинно-отрицательные (true negatives, tn) — результаты, которые не попали и не должны были попасть в выдачу.

Следовательно, точность (P, precision), которая указывает на то, сколько точных результатов получено в выдаче, определяется по формуле:

(2)

Однако, этого недостаточно для оценки того, все ли ожидаемые результаты попали в выдачу, поэтому используется еще одна формуала для оценки полноты выдачи (R, recall):

(3)

Кроме того, для более корректного анализа данных, получаемых по семантической метрике, рекомендуется использовать унифицированную метрику F 1, для расчета которой используется формула:

(4)

Данная метрика позволяет оценить пороговое качество семантической метрики.

С позиции рассматриваемых показателей осуществляются процессы:

Специалист в исследуемой сфере формирует соответствующую онтологию OWL.

Формируется онтологически-направленный механизм обнаружения понятийного аппарата, предполагающего указанные раннее метрики для реализации задачи выявления степени понятийности слова или словосочетания внутри большого документационного объёма.

Онтология OWL предусматривает системное построение в формате иерархии и составляет категории взаимодействия между классовыми объектами. Включает несколько иерархических ступеней для максимальной трактовки понятий исследуемой сферы, применяемой для решений установленной проблемы.

Принцип механизма обнаружения понятий заключается в выполнении следующих операций:

Вычисление статистических и лингвистических признаков полученного текстового отрывка, предусматривающего морфологическую разметку. Расчёт ведётся с помощью системного модуля.

Вычисление семантических словесных признаков, а также особенностей сочетаний слов в тексте, подверженном обработке. Расчёт основан на указанных раннее подходах и онтологии формата OWL.

Учитывая вышеизложенное, можно сделать вывод, что семантическая метрика понятия/непонятия, разработанная на базе онтологии проблемной отрасли позволяет обнаружить только те слова и словосочетания, которые являются официальными понятиями рассматриваемой сферы. Для каждого входного словесного компонента устанавливается числовой показатель, обозначающий уровень их интеграции.

Рассматриваемая метрика может применяться как автономная или как дополнение к лингвистической/статистической метрике, применяемых для обнаружения понятийного аппарата в аналитических целях.

Литература:

1. Андреев И. А., Башаев В. А., Клейн В. В. Разработка программного средства для извлечения терминологии из текста на основании морфологических признаков, определяемых программой Mystem // Интегрированные модели и мягкие вычисления в искусственном интеллекте. — М.: Физматлит, 2013. — С. 1227–1236.

2. Добров Б. В., Лукашевич Н. В., Сыромятников С. В. Формирование базы терминологических словосочетаний по текстам предметной области // Тр. 5-й Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). — СПб., 2003. — С. 201–210.

3. Усталов Д. А. Семантические сети и обработка естественного языка // Открытые системы. СУБД. 2017. № 2. C. 51–53.

4. Hryhorovych V., «Construction of Normalized Metric for Hierarchical Data Structures based on Harmonic Functions», 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT) , 2021, pp. 146–149 .

5. Lourdusamy R. and John A., «A review on metrics for ontology evaluation», 2018 2nd International Conference on Inventive Systems and Control (ICISC) , 2018, pp. 1415–1421.

Основные термины (генерируются автоматически): OWL, семантическая метрика, исследуемая отрасль, исследуемая сфера, понятийный аппарат, взаимодействие, интеграционный уровень, компонент, документационный объем, объектное взаимодействие.


Ключевые слова

тезаурус, онтология, предметная область, семантическая метрика, информационная единица

Похожие статьи

Особенности формирования готовности будущих специалистов по...

Ключевые слова:готовность, будущие специалисты по документоведению, профессиональное взаимодействие, сфера социальных коммуникаций. ХХІ век определен как век информационного общества, в котором информация рассматривается как стратегический ресурс.

Цифровые образовательные ресурсы и адаптивное обучение

- интеграционная, - адаптационная, - обеспечение своевременной помощи в овладении содержания обучения

Обозначает наличие в системе набора функций различного уровня, таких как форумы, чаты, анализ активности обучаемых, управление курсами и...

Возможности и ограничения онлайн-исследований

Обращаясь к уменьшению стоимости онлайн-исследований (экономности), следует сделать оговорку, что не все исследования в онлайн-формате ниже по стоимости по сравнению с традиционными исследованиями. Действительно, общий уровень расходов снижается в...

Информационная модель психодиагностических тестов для...

Общая структура системы и взаимодействие ее компонентов представлены на рисунке 1. Рис. 1. Общая структурная схема генератора

Информационная модель предметной области реализуется в виде семантической сети, в узлах которой располагаются компоненты...

Анализ методов искусственного интеллекта САПР технологических...

Даны рекомендации по интеграции интеллектуальной системы моделирования технологических комплектов в единый комплекс информационного

БЗ — объектно-ориентированная. Практических данных об опыте применения в конструкторско-технологической информатике нет.

Опубликовать статью в журнале «Молодой учёный» №25...

Сразу же после оплаты. Моментально после онлайн-оплаты на сайте появится препринт вашей статьи (у вас будет ссылка на страницу с публикацией). Кроме этого, в личном кабинете сразу же появится справка на фирменном бланке издательства и свидетельство о публикации статьи.

Позиционирование и взаимодействие в беспроводных сенсорных...

Бодрова, А. А. Позиционирование и взаимодействие в беспроводных сенсорных сетях / А. А. Бодрова, В. И. Логвин.

Непросто выбрать алгоритм и протокол взаимодействия объектов сети, так как все протоколы эффективны только для решения одной задачи.

Взаимодействие информационной системы управления...

Взаимодействие информационных систем управления и организации системно и на него влияет большое число факторов, которое включает структуру организации, эксплуатацию, политику, окружающую среду и т. п. Информационные системы управления изменяют жизнь в...

Моделирование данных телеметрии в Apache Cassandra

 В статье авторы исследуют возможную структуру хранения данных датчиков в

Логический уровень представления модели данных — это уровень абстрактного, понятийного

Использование реляционной базы данных для хранения объектно-ориентированных данных...

Похожие статьи

Особенности формирования готовности будущих специалистов по...

Ключевые слова:готовность, будущие специалисты по документоведению, профессиональное взаимодействие, сфера социальных коммуникаций. ХХІ век определен как век информационного общества, в котором информация рассматривается как стратегический ресурс.

Цифровые образовательные ресурсы и адаптивное обучение

- интеграционная, - адаптационная, - обеспечение своевременной помощи в овладении содержания обучения

Обозначает наличие в системе набора функций различного уровня, таких как форумы, чаты, анализ активности обучаемых, управление курсами и...

Возможности и ограничения онлайн-исследований

Обращаясь к уменьшению стоимости онлайн-исследований (экономности), следует сделать оговорку, что не все исследования в онлайн-формате ниже по стоимости по сравнению с традиционными исследованиями. Действительно, общий уровень расходов снижается в...

Информационная модель психодиагностических тестов для...

Общая структура системы и взаимодействие ее компонентов представлены на рисунке 1. Рис. 1. Общая структурная схема генератора

Информационная модель предметной области реализуется в виде семантической сети, в узлах которой располагаются компоненты...

Анализ методов искусственного интеллекта САПР технологических...

Даны рекомендации по интеграции интеллектуальной системы моделирования технологических комплектов в единый комплекс информационного

БЗ — объектно-ориентированная. Практических данных об опыте применения в конструкторско-технологической информатике нет.

Опубликовать статью в журнале «Молодой учёный» №25...

Сразу же после оплаты. Моментально после онлайн-оплаты на сайте появится препринт вашей статьи (у вас будет ссылка на страницу с публикацией). Кроме этого, в личном кабинете сразу же появится справка на фирменном бланке издательства и свидетельство о публикации статьи.

Позиционирование и взаимодействие в беспроводных сенсорных...

Бодрова, А. А. Позиционирование и взаимодействие в беспроводных сенсорных сетях / А. А. Бодрова, В. И. Логвин.

Непросто выбрать алгоритм и протокол взаимодействия объектов сети, так как все протоколы эффективны только для решения одной задачи.

Взаимодействие информационной системы управления...

Взаимодействие информационных систем управления и организации системно и на него влияет большое число факторов, которое включает структуру организации, эксплуатацию, политику, окружающую среду и т. п. Информационные системы управления изменяют жизнь в...

Моделирование данных телеметрии в Apache Cassandra

 В статье авторы исследуют возможную структуру хранения данных датчиков в

Логический уровень представления модели данных — это уровень абстрактного, понятийного

Использование реляционной базы данных для хранения объектно-ориентированных данных...

Задать вопрос